符合学术规范的学术服务

利用随机森林方法优选光谱特征预测土壤水分含量

分类:科技论文 时间:2019-12-30

  摘要为了更加精确地分析土壤光谱中不同水分吸收带内的光谱吸收特征参数在估测土壤水分含量(SMC)中的重要性,以新疆渭干河-库车河绿洲为研究区,采集38个土壤样本进行土壤光谱反射率及SMC的测定。利用去包络线消除法提取反射光谱水分吸收特征参数,包括最大吸收深度D、吸收谷右面积Ra、吸收谷左面积La、吸收谷总面积A、面积归一化最大吸收深度DA和对称度S,将反射光谱水分吸收特征与SMC进行相关性分析,通过随机森林方法对光谱水分吸收特征参数进行分类,获取各参数对SMC的重要性。运用多元逐步回归模型建立SMC反演模型。结果表明:D、A与SMC的相关性最高,同时2200nm及1400nm波段范围内的光谱吸收特征参数与SMC的相关性优于1900nm波段范围内的光谱吸收特征参数;对SMC影响较为重要的前5个参数分别为D2200、La2200、A2200、D1900和Ra2200;SMC的最佳预测模型是采用A2200、D2200建立的多元逐步回归模型,其建模集决定系数为0.88,建模集均方根误差为2.08,测试集决定系数为0.89,预测均方根误差为2.21,相对分析误差为2.80。随机森林分类能得到对土壤含水量影响较为重要的光谱水分特征参数,为干旱区精准土壤水分快速估测提供了新方法。

利用随机森林方法优选光谱特征预测土壤水分含量

  关键词光谱学;土壤水分含量;随机森林;吸收特征参数

  1引言

  土壤水分含量(SMC)对水-热-溶质耦合运移以及土壤-植被-大气连续体中的物质迁移过程具有重要影响[1-2]。传统的SMC测定方法难以满足对土壤水分检测的需求。遥感技术以大面积、非接触、时效性等优势在SMC的估测研究中得到了广泛应用[3]。

  目前,基于近红外光谱测定土壤水分的方法主要是利用反射率随SMC变化的规律,通过各种相关指标进行SMC定量估算[4],或直接利用近红外吸收波段对SMC的敏感度进行反演[5-6],较少有研究人员利用SMC吸收波段处的光谱特征参数对SMC反演进行深入探究。由于SMC的敏感性光谱特征主要表现在1400,1900,2200nm波长附近的光谱吸收带,因此可以通过提取这些波长处的光谱吸收特征参数,来实现SMC的定量估算[7]。对于SMC与土壤光谱反射特征之间的关系,国内外学者研究发现[8-11]:土壤反射率会随着SMC的增加而下降,当SMC高于田间持水量时,由于水体的镜面作用,反射率会出现回升。已有的SMC近红外光谱预测模型[12-15]以反射率及数学变换形式居多,而针对反射光谱特征机理的定量分析比较缺少。金慧凝等[16]利用去包络线方法提取光谱吸收特征指标,建立了SMC近红外光谱预测模型;刘秀英等[17]通过提取水分吸收特征参数对黄绵土中的水分含量进行反演;习万英等[18]比较了人工神经网络和光谱水分特征参数模型的性能。

  前人的研究多集中在光谱水分吸收特征参数与SMC的定量估算上,较少有人考虑通过数据挖掘模型进行光谱吸收特征参数的优选,并进行SMC反演。鉴于此,本课题组尝试以干旱区土壤样本为研究对象,首先获取土壤反射率,分析土壤光谱特征并提取光谱水分吸收特征参数;然后结合随机森林数据挖掘模型,对光谱水分吸收特征参数进行重要性分类;最后进行SMC的预测,并对其模拟结果进行验证,探讨随机森林方法结合土壤光谱水分吸收特征参数优选对干旱区SMC进行预测的潜力,以期为监测干旱区表层SMC提供新方法与新思路。

  2材料与方法

  2.1研究区概况

  研究区位于新疆南部塔里木盆地中北部的渭干河-库车河绿洲(41°08′~41°55′N,81°06′~83°37′E),属于温带大陆性干旱气候,年均气温14.50℃,干燥度系数为44.37,年均降水量为51.60mm,植物全年生长周期为220d以上,无霜期为209.7~226.3d[19]。

  2.2数据获取

  2017年7月,本课题组根据研究区的特点共布设了38个具有代表性的样点。这38个样点覆盖了绿洲内部区域的不同土地利用方式、不同土壤类型和不同土壤质地,包括农田、荒地、盐渍地和林地。在各样点采用五点混合法采集样本,采集样本的深度为0~10cm,各样点均采集2份样本,其中一份装入铝盒内,另一份装入塑料袋内,带回实验室;然后将铝盒中的样品置于105℃的恒温箱中进行烘干(48h),获得相应的SMC;另一份样本在未风干之前获取其反射率数据。

  采用美国FiledSpec3型光谱仪在暗室内采集光谱数据,光谱仪波长范围350~2500nm,在350~1000nm波长范围内的采样间隔为1.4nm,在1000~2500nm波长范围内的采样间隔为2nm。在黑色器皿(直径11cm,深1.4cm)中装满过2mm孔筛的土样,以50W的卤素灯为作为光源,光源与样品间隔50cm,光源天顶角为15°,光谱仪探头与样本之间相距10cm,如图1所示。测量前用漫反射标准参考板定标,每个土样均采样10次,取最后的平均值作为该样点的光谱数据。

  2.3随机森林分类

  随机森林模型(RFM)是一种组成式的有监督的学习方法。随机森林方法能较好地处理过拟合现象,是一种相对成熟的数据挖掘模型。随机森林分类特征参数的步骤为3步:1)从18种光谱特征数据集合中随机采样得到新的训练集;2)重复随机采样B次得到B个新的训练集,同时针对B个不同的训练集分别训练一颗树;3)在训练过程中从所有特征中随机选择m个特征作为备选,从这m个特征中选出最优的一个来划分预测空间。在众多的光谱特征参数中选取18种参数,利用随机森林方法对SMC与这18种光谱特征参数建立模型,从而确定哪些光谱特征参数对SMC最为重要。在R语言中,利用RandomForest工具包对RFM进行拟合,在进行拟合前,将需要生成树的数量参数设定为100,将每个节点处用于分割节点的预测变量树参数设定为6。模型的分类预测性能可以通过预测相关系数R2、均方根误差eRMSE这2个指标来衡量。根据各光谱特征参数对SMC的重要性,利用平均精度下降指标对光谱特征参数进行排序。RFM的R2越大,eRMSE越小,说明RFM估算的准确性越高,平均精度下降指标越小,光谱特征参数对SMC的影响贡献度越小;反之,准确性越差,平均精度下降指标越大,光谱特征参数对SMC的影响贡献度越大[20]。

  2.4数据处理与模型建立

  首先对光谱数据进行多元散射校正,以消除颗粒分布产生的光谱噪声,接着采用Savitaky-Golay方法对数据进行平滑去噪处理[21],然后根据实测土壤样本光谱吸收特征波段的分析以及其他研究者的结论可以得到:近红外区1400,1900,2200nm波段范围是SMC的最强吸收波段[22-23]。因此可以利用去包络线消除法提取这3个波段的光谱吸收特征参数,包络线消除后可以提取光谱水分吸收特征参数,主要有吸收谷附近的最大吸收深度D、吸收谷右面积Ra、吸收谷左面积La及吸收谷总面积A(A=Ra+La)。其他一些参数包括面积归一化最大吸收深度DA(DA=D/A)及对称度S(S=La/Ra)。包络线消除在ENVI4.8中实现[17]。

  相关知识推荐:激光表面处理论文发表什么期刊快

  激光在医学、生物学、电子学等方面都有广泛的应用,一些这方面的从业者也都是会发表激光表面处理类论文,但是他们却不清楚这类论文投稿到哪些期刊比较快,在这里小编也查阅了相关资料,并且和以往评职人员进行沟通,据他们反馈,本文这几本激光类刊物是能接收激光表面处理论文的,并且是审稿时间比较短的期刊。

  采用多元逐步回归(MLSR)法对SMC与经过随机森林分类筛选出来的前5个光谱吸收特征进行建模,参数包括建模集决定系数R2c、测试集决定系数R2p、建模集均方根误差eRMSEC、预测集均方根误差eRMSEP以及相对分析误差RPD。R2c与R2p越大,表示模型的精度越高;eRMSEC与eRMSEP表示预测模型的准确性,其值的大小与预测模型的精度成反比。当RPD≥2时,预测模型的效果较好;当1.4≤RPD<2时,预测模型的效果一般;当RPD≤1.4时,模型无预测能力。

  3结果与讨论

  3.1土壤样本含水量状况

  表1为研究区表层SMC的统计特征值,建模集与测试集对应的SMC均值在14.50%左右,最大值与最小值分别在22.00%与1.70%左右,变异系数(CV)在40%左右,属于中等变异。

  3.2土壤光谱特征与水分吸收特征

  图2示出3个不同SMC土壤样本的光谱反射率及吸收特征曲线。由图2(a)可见:在可见光至短波红外的所有波段内,当SMC低于田间持水量时,土壤样本的反射率随着SMC的减小而增加;反射光谱曲线整体比较平缓;不同的波段对SMC的响应不同,当土壤含水量较低时,随着SMC增加,短波红外波段的反射率变化幅度较大;不同SMC土壤样本光谱间的主要差别表现为460nm左右的反射率及吸收深度,特别是在以1400,1900,2200nm波段为主的水分吸收波段,形成了典型的吸收谷峰。通过对光谱反射率进行包络线去除,得到了反映土壤水分吸收状况的吸收特征曲线,如图2(b)所示。可见:随着SMC减小,1400nm和1900nm波段附近水分吸收峰的波段向短波方向偏移,而2200nm波段附近没有明显变化;在3个水分吸收带中,以1900nm波段附近的吸收最为强烈,吸收深度与吸收面积均最大,其次为2200nm与1400nm波段附近的吸收。因此,分别提取1400,1900,2200nm波段附近的光谱吸收特征参数进行SMC的定量估算。

  3.3SMC与光谱吸收特征参数的相关性

  光谱吸收特征参数与SMC的相关性分析结果见表2。由表2可知:80%以上的光谱吸收特征参数与SMC的相关性均达到了0.01极显著检验水平(S没有达到显著检验水平);在1400nm波段附近的吸收特征参数(D、A、La和Ra)与SMC的相关性系数均达到0.90以上;在1900nm波段附近,除DA及S外,80%以上的光谱吸收特征参数与SMC的相关性系数均达到了0.70以上,其中D达到0.86;在2200nm波段附近,80%以上的光谱吸收特征参数与SMC的相关性系数均达到0.90以上,但DA及S没有达到显著性水平,特别是最大吸收深度和吸收面积这两个参数与土壤含水量的相关性最强,这与其他研究者的结论一致[15]。此外,由表2还可以看出,1400nm波段的光谱吸收特征参数与SMC的相关性优于1900nm和2200nm波段。综上,光谱吸收特征参数与SMC的相关性分析可以说明光谱吸收特征参数具有定量评价SMC的潜力。

  3.4SMC与光谱吸收特征参数的重要性分析

  本研究使用K-S方法进行样本划分,其中25个样本为训练集,13个样本为测试集。以SMC为因变量,18种光谱吸收特征参数为自变量,建立随机森林分类预测模型。表3为RFM精度拟合结果:对于训练集,R2=0.87,eRMSE=1.82;对于测试集,R2=0.83,eRMSE=2.46。可见,随机森林分类预测模型的模拟精度达到了可靠水平,无论是训练集还是预测集,R2均在0.8左右,eRMSE为1~2,符合期望。

  图3列出了18种光谱吸收特征参数对SMC影响的贡献度。由图3可见,当取样深度为0~10cm时,对SMC影响最大的是D2200,然后依次为La2200、A2200、D1900、Ra2200、Ra1400、La1400、A1400、D1400、La1900、DA2200、DA1400、Ra1900、A1900及DA1900,而S2200、S1900与S1400对SMC的影响最小。总体来看,D2200、La2200、A2200、D1900和Ra2200对SMC的影响较为重要,D2200、La2200、A2200、D1900和Ra2200的平均精度下降分别为86.00、76.43、65.00、53.94和47.46。因此本研究选择重要性排名前5的光谱吸收特征参数建立SMC模型。

  3.5SMC反演模型构建与验证

  参照图3,对随机森林生成的光谱吸收特征参数排序,选择排名前5的光谱特征参数为模型的自变量,分别为D2200、La2200、A2200、D1900和Ra2200,SMC为模型因变量,建立MLSRSMC预测模型。根据表4中的R2c、eRMSEC、R2p、eRMSEP和RPD来分析SMC与光谱吸收特征参数模型的精度。MLSR预测模型通过了0.01的F检验,R2c>0.85,预测模型对自变量的解释程度在85%以上,说明MLSR预测模型对研究区SMC与光谱特征吸收参数的拟合效果较好,其中R2c=0.88,eRMSEC=2.08,R2P=0.89,eRMSEP=2.21,RPD=2.80。总体来看,MLSR模型的检验精度有不同程度的异质性,但是都能在一定程度上反映光谱特征参数D2200、A2200与实测SMC之间的关系。2200nm波段的最大吸收深度能够很好地预测SMC,这与前人的研究结论一致。此外,由于吸收面积综合了吸收深度和宽度信息,对SMC非常敏感,因此预测精度较高。以上结果说明,由吸收面积与最大吸收深度构建的MLSR模型对干旱区绿洲浅层SMC的预测能力较强,在监测浅层SMC方面的潜力巨大,可以作为干旱区SMC的预测模型。

  图4是MLSR模型中实测值和预测值的散点图。预测模型的实测值样点和预测值样点基本分布在1:1线附近,证明预测效果较好。将25个建模样点与13个测试样点的SMC与不同光谱吸收特征参数建立的MLSR模型的预测值与实测值进行散点绘图。以D2200和A1400为自变量建立的多元逐步线性回归模型的预测效果较好,eRMSEC=2.08,R2c=0.88,RPD=2.80。综上所述,MLSR模型能准确预测干旱区的SMC。

  4结论

  本研究通过测定SMC和高光谱反射率数据,利用包络线消除法提取1400,1900,2200nm波段的土壤光谱吸收特征参数,通过分析SMC与18种光谱吸收特征参数的相关性,以及采用随机森林建模分类,得到了对因变量SMC影响最大的前5种光谱吸收特征参数,最后采用MLSR模型对SMC进行预测,得出以下结论:

  1)与SMC相关性最好的光谱吸收特征参数分别为最大吸收深度、吸收总面积、吸收峰右面积、吸收峰左面积,2200nm与1400nm波段处的光谱吸收特征参数与SMC的相关性优于1900nm波段处的光谱吸收特征参数。

  2)通过对SMC与18种光谱吸收特征参数进行随机森林建模排序后发现,对SMC影响最大的前5种光谱吸收特征参数依次为D2200、La2200、A2200、D1900和Ra2200,在以后的研究中,可以重点考虑这5种光谱吸收特征对SMC的影响。

  3)SMC的预测模型以A2200、D2200建立的MLSR模型效果较好,模型的R2c>0.85,R2p>0.92,RPD>2,eRMSEP<3。

  本研究是对采用近红外光谱特征参数预测土壤含水量方法的探讨,因样本数量较少,该方法目前尚不能作为一种成熟的实用方法。要使本方法实用化,尚需要增加样本的代表性和样本数量,建立可信、稳定的近红外光谱校正模型。

获取发表周期短、审稿速度快、容易录用的期刊

* 稍后学术顾问联系您

学术顾问回访> 详细沟通需求> 确定服务项目> 支付服务金> 完成服务内容

SCI期刊

国际英文期刊

核心期刊

国外书号出书

国内纸质出书

2023最新分区查询