图片来源网络
PM2.5作为一个重要的大气环境参数,能对人体健康产生重要影响。现有PM2.5产品大多来自太阳同步轨道卫星,它们的重访周期较长(每天一到两次观测),无法满足空气污染实时监测的要求。
马里兰大学韦晶博士、李占清教授及合作者发表论文"Himawari-8-deriveddiurnalvariationsinground-levelPM2.5pollutionacrossChinausingthefastspace-timeLightGradientBoostingMachine(LightGBM)",提出一种快速、高效的时空-光梯度推进机模型,融合地基观测、卫星遥感、大气再分析和模式模拟等大数据,估算得到中国5公里逐小时PM2.5数据(即ChinaHighPM2.5),分析了中国PM2.5污染的日变化。
温馨提示:文末有数据集下载地址,免费开放获取呦!
研究背景
PM2.5受到自然和人为因素的影响,通常具有很强的日变化,这些信息有助于人们了解空气污染形成的原因以及人们如何对其作出适应和调整,例如,人们如果知道白天什么时候会发生重污染,就可以相应地调整户外活动时间等。因此,本研究利用新一代地球静止气象卫星Himawari-8/AHI气溶胶产品估算和记录PM2.5污染的日变化,针对其数据量巨大的特点,提出一种快速的时空-光梯度推进机(STLG)模型,估算得到中国5公里逐小时PM2.5数据。
数据源
PM2.5地基观测数据
Himawari-8AOD产品
ERA5气象再分析数据
MEIC排放清单
NDVI、DEM及人口等遥感产品
研究方法
时空-光梯度推进机(STLG)模型示意图
基于梯度提升决策树思想和微软开发的光梯度推进机(LightGBM)框架,通过考虑大气污染的时空变化特性,扩展了一种全新的时空-光梯度推进机(STLG)模型,应用于地球大数据,反演近地表PM2.5浓度。LightGBM是一种快速、分布式、高效的方法,能够解决传统人工智能方法面临的主要挑战,即计算复杂性。
该方法基于直方图优化算法和带有深度限制的Leaf-wise算法构建决策树,利用单边梯度采样(GOSS)和互斥特征绑定(EFB)方法减少数据量和特征量,因此具有更快的训练速度、更低的内存使用及更高的准确率,可用于大处理大规模数据,同时能够支持特征和数据高效并行。
研究结论
(1)STLG模型能够较准确地估算中国逐小时PM2.5浓度,整体精度达到85%,RMSE为13.62μg?m?3;同时,站外验证结果表明该模型具有较强的空间预测能力,能较准确预测没有地基观测站点处的PM2.5小时浓度。
中国不同小时的PM2.5浓度估算值
十折交叉验证结果
(2)中国PM2.5污染日变化较大,日出时总体处于较低水平。由于人类活动的不断增加,空气污染逐渐严重,在10:00-11:00左右达到峰值,高污染可以持续几个小时。随着时间的推移,人类活动逐渐消退,细颗粒物不断沉降,在日落时分,中国大部分地区的PM2.5浓度不断下降。
表中国、中国东部、京津冀、长三角和珠三角
PM2.5逐小时浓度值
(3)在考虑时空信息后,所有模型的整体精度和空间预测能力显著得到提升。同时,在所有树模型中,STLG模型展现出最高的模型估算和预测精度;更重要的是,该模型在保证精度的同时,显著提升了运行速度并降低了内存消耗。因此,该模型对于未来全球高时空PM估算具有重要意义。
表不同树模型整体精度、空间预测能力、
运行速度和内存消耗对比
论文标题
Himawari-8-deriveddiurnalvariationsinground-levelPM2.5pollutionacrossChinausingthefastspace-timeLightGradientBoostingMachine(LightGBM)
发表期刊
AtmosphericChemistryandPhysics
论文全文链接