基于不同决策树的面向对象林区遥感影像分类比较-期刊天空网手机端

　　摘要面向地理对象影像分析技术(GEOBIA)是影像分辨率越来越高的背景下的产物.如何提高高分辨率影像分类精度和分类效率是影像处理的重要议题之一.本研究对QuickBird影像多尺度分割后的对象进行分类，分析了C5.0、C4.5、CART决策树算法在林区面向对象分类中的效率，并与kNN算法的分类精度进行比较.利用eCognition软件对遥感影像进行多尺度分割，分析得到最佳尺度为90和40.在90尺度下分离出植被和非植被后，在40尺度下提取不同类别植被的光谱、纹理、形状等共21个特征，并利用C5.0、C4.5、CART决策树算法分别对其进行知识挖掘，自动建立分类规则.最后利用建立的分类规则分别对植被区域进行分类，并比较分析其精度.结果表明:基于决策树的分类精度均高于传统的kNN法.其中，C5.0方法的精度最高，其总体分类精度为90.0%，Kappa系数0.87.决策树算法能有效提高林区树种分类精度，且C5.0决策树的Boosting算法对该分类效果具有最明显的提升.

基于不同决策树的面向对象林区遥感影像分类比较

　　关键词遥感;决策树;分类;C5.0决策树

　　森林分类对于理解森林生态系统结构和功能具有重要意义，明确不同森林类型的分布情况是对森林生态系统研究的第一步[1].目前，基于遥感数据的土地利用分类是较为普遍的方法.在低、中低分辨率影像时代，影像分类均基于影像像素，其基本理论是基于各地类像元统计值，判断每个像元与相应地类统计值之间的距离对象元进行分类.然而，中低分辨率的遥感数据在应用中通常存在混合像元问题，导致同谱异物，降低分类精度，对森林参数、生物量等估算产生影响[2].

　　高分辨率影像出现后，目标对象在影像中通常需要多个像元组合表达，分类由中低光谱分辨率的同谱异物现象转变成为同物异谱问题，同时分类结果容易存在椒盐噪声的问题，仅依靠基于像元光谱特征分类不足以达到目的[3].因此，学者提出了面向地理对象影像分析技术(geographicobject-basedimageanalysis，GEOBIA)，并得到广泛应用[4-7].面向对象分类以影像分割后的对象作为分类的基本单元，影像分割的质量直接影响最终分类结果的准确性，对不同地物需要有不同的尺度，因此涉及到多尺度分割问题[8-10].目前，被应用到遥感影像多尺度分割的算法主要有6种[11]:分形网络演化方法(fractalnetevolutionapproach，FNEA)[12]、分水岭算法[13-14]、均值漂移算法(meanshift)[15]、小波域HMT模型[16]、统计区域合并算法[17]、基于图的分割算法[18].其中，FNEA方法被嵌入到eCognition软件中，得到更为广泛的应用，经分割参数设置，对影像进行分割，实现了聚类，成为多个对象.通过对影像对象光谱、纹理、形状等特征的分析可提取不同对象对应的地物特征，以实现分类[19-20].

　　常见的面向对象的方法主要分为3类:基于机器学习的方法、统计方法、结构方法[4，21-24].机器学习范畴的决策树算法是一种常用的分类方法.根据不同的构建原理和剪枝方法，常用的决策树主要有ID3、C4.5、C5.0、CART、CHAID和QUEST等[25-28].在影像分类和地类提取中，各类决策树模型均得到了广泛应用.Sun等[29]基于多时相Landsat数据，利用C5.0算法提取西双版纳橡胶的分布;曹洪涛等[30]利用多源遥感影像数据，结合C4.5算法对钱塘江流域土地覆被类型进行分类研究;陈云等[31]运用遥感数据的纹理等多种特征，基于CART算法建立决策树提取了扬州市建筑区和围网养殖区.在面向对象分类方面，一些作者分别基于不同的影像数据，使用不同的决策树实现了影像分类[7，25，32]，但针对不同决策树方法在面向对象的林区树种分类中效果的研究则鲜见.

　　本研究以将乐国有林场明头山工区为研究对象，基于研究区的QuickBird数据，经辐射校正、大气校正、几何校正和地形校正等预处理后，对影像进行多尺度分割，提取影像对象多种特征，分别使用C5.0、C4.5和CART决策树及最近邻法(kNN)对研究区的土地利用类型进行划分，评价不同决策树模型在面向对象影像分类中的优劣，旨在比较不同决策树算法在面向对象树种分类中的效率.

　　1研究地区与研究方法

　　1.1研究区概况

　　研究区位于福建省三明市将乐国有林场明头山工区，将乐县地理坐标为26°26'—27°04'N，117°05'—117°40'E.研究区受亚热带季风气候影响，具有海洋性和大陆性气候特点.近5年，研究区年平均气温18.7℃，年均降水量为1669mm，降水主要分布在5—9月.夏季时间长，冬季时间短，霜冻少，植物生长期长.研究区土壤类型多样，其中多为红壤，土层深厚，土壤肥沃.杉木(Cunninghamialanceolata)作为速生用材树种，是研究区主要经营树种.此外，乔木层还包含马尾松(Pinusmassoniana)、火力楠(Micheliamacclurei)、木荷(Schimasuperba)、福建柏(Fokieniahodginsii)、油桐(Verniciafordii)、毛竹(Phyllostachysheterocycla)等;林下植被丰富，灌木层主要包含粗叶榕(Ficushirta)、冬青(Ilexchinensis)、黄瑞木(Adinandramillettii)、油茶(Camelliaoleifera)、茶叶(Camelliasinensis)等;草本层以蕨类为主.

　　1.2数据收集

　　本研究数据主要有样地调查数据和遥感影像数据两类.研究区所在地为国有林场，主要植被类型为杉木人工林.根据林场经营记录，2010—2017年间研究区植被类型变化较小.样地调查数据收集时间为2016年7月—2017年7月，共35块杉木人工林样地，均做每木检尺，其中，幼龄林、中龄林、近熟林、成熟林、过熟林分别有3、8、7、9、8块.遥感数据为研究区2012年7月2日的QuickBird数据，包含6653行×5650列数据.数据包含4个与全色波段融合后的波段(0.485～0.830μm)，其中3个可见光波段和1个近红外波段，分辨率均为0.61m.此外，研究区1∶5万地形图数据、将乐县2013年小班调查数据、GoogleEarth数据均作为辅助数据.图像预处理所用的投影坐标系统为UTMWGS1984(50N).

　　1.3研究方法

　　本研究基于多尺度分割算法，实现自下而上的影像分割，并通过分析得到适合研究区的最优分割尺度.基于最优分割尺度结果，首先在较大尺度上区分植被与非植被区域，然后在较小尺度上选择不同植被样本，结合C5.0、C4.5和CART决策树对植被类型进行分类，同时基于kNN方法实现分类作为参照.最后对分类结果进行精度验证和比较分析.1.3.1多尺度分割和最优尺度选择本研究基于eCognition软件实现多尺度分割，其算法核心是分形网络演化.该方法是一种自下而上的迭代合并算法，将像素归并到当前对象后，判断新对象同质性是否超过给定阈值;若小于阈值，则归并形成新的对象，反之则不能.多尺度分割要求小尺度的对象处于上一级尺度对象的边界内，以保证对象间的完整性.影像分割时需要设定5个参数:尺度、颜色权重、形状权重、平滑度权重和紧致度权重.其中，颜色与形状之和为1，平滑度与紧致度之和为1.

　　分割尺度是影响面向对象分类的关键步骤之一.研究表明，在单一尺度下，小尺度地物存在欠分割而大尺度地物则被过分割[11].因此，需根据地物大小选择不同尺度，即最优尺度选择.当前，国内外最优尺度选择方法主要分为3种:经验选择法、模型计算法和鉴别指标法.本研究选用模型计算法中的GS分割评价准则进行最优尺度选择[33-36].GS分割评价准则是一种非监督的多尺度最优分割结果的选择方法，由基于对象面积加权的方差和全局Moran指数分别归一化后相加得到.其中，对象面积加权方差用于评价对象的内部同质性，值越小则对象内部的同质性越大;全局Moran指数用来评价影像对象间的异质性，Moran指数值越小则区域对象间相关性越小，影像对象间的可分性好，整体分割效果好.基于该准则得到的最优分割结果具有区域间异质性大、区域内一致性强的特点.GS值的计算公式参见文献[35].

　　多尺度分割后，将不同尺度的分割结果分别导出其对象标准差、方差、面积和光谱等信息，使用ArcGIS计算每个尺度的Moran值及其相应的加权方差，分别将归一化结果相加后得到相应的GS值，最后判断得出最佳结果.

　　1.3.2特征构建影像对象特征是影像分类的关键因素，面向对象的分类除了可以使用常规的光谱特征以外，还可以将影像对象的形状特征、地形特征相结合，以提高效率和精度.本研究根据实际情况构建了光谱和形状两类特征值用于分类.其中，光谱特征值包括对象反射率均值、标准差、光谱均值、归一化植被指数、土壤修正植被指数[37-38]、归一化水体指数、各波段纹理特征等;形状特征包括形状指数、长宽比、面积(以像素pixels表示)、紧致度、矩形匹配度等.本研究样本特征的描述和计算公式见表1.

　　1.3.3决策树模型本研究基于C5.0、C4.5和CART方法分别构建决策树模型，实现研究区树种分类，并比较分析了不同决策树方法在分类中的优劣.决策树模型构建过程主要包括决策树生成和剪枝，剪枝能防止过拟合，同时保证一定的精度.

　　CART算法的基本原理是通过对由测试变量和目标变量构成的训练数据集的循环分析，形成二叉树形式的决策树结构[7，31].C4.5算法基于信息增益率来选择属性，选取信息增益率最大的但又不低于所有属性平均值的属性作为树的一个分支节点，并确定其分裂阈值[30，32].C5.0算法是在研究分析C4.5决策树基础上形成的算法.它继承了C4.5算法的所有性能，通过代价矩阵实现决策树剪枝，并添加了一系列新功能，其中重要的功能之一是Boosting技术.Boosting技术会按顺序建立一系列决策树，其中，后建立的决策树重点考虑先前被错分或漏分的数据，最后得到更加精确的决策树模型[25].

　　相关知识推荐：林业工程师从中级升高级需要满足什么条件

　　林业方向中级晋升高级职称要求是比较严格的，当然各个省要求也是不同的，下面文章就以江苏省的职称文件为材料，给大家讲解林业工程师从中级升高级要满足的条件，主要分享的是学历资历，工作业绩，论文、论著等要求，林业从业人员可以作为参考。有想了解更多有关林业评职方面的内容，可咨询期刊天空在线编辑。

　　1.4样本采集与特征提取

　　参照《土地利用现状分类》(GBT21010—2017)[39]，结合研究区现状，将研究区土地利用类型分为非植被(含水域、建筑用地、交通运输用地等)、耕地(含水田、水浇地、旱地)、杉木、马尾松、阔叶树、未成林地造林地共6大类.为分析不同地类的特征，分别选取训练样本进行统计分析，训练样本数量与类型面积呈正比且大于30个.研究区第一层分类为植被和非植被;在第一层分类的基础上，仅针对植被区域将其细分为耕地、未成林造林地、杉木、马尾松和阔叶树.不同地类的各特征值见表

　　2.2结果与分析

　　2.1最优尺度确定和类层次构建

　　参考前人关于多尺度分割参数设置的经验[40]，在不同的形状和紧致度参数条件下，以10为尺度间隔，从尺度30～200对影像进行多尺度分割，并计算不同尺度下对象的同质性指数、异质性指数和GS值.根据多次试验和分析，最终确定了90和40两个尺度.两尺度下形状与紧致度参数的设置分别为:0.2与0.5、0.6与0.3.第一层，用于区分植被和非植被区域，尺度参数为90;第二层，用于区分耕地、未成林造林地、马尾松、杉木和阔叶林等，尺度参数为40.利用软件关于类的继承功能建立了类的层次结构，并设定好子对象与父对象在类层次之间的距离.在90尺度下，建筑和水体得到充分的分割，能与植被很好地区分;而在40尺度下，水体和建筑均被过分割，整体更加破碎;对于森林和农田等对象特征比较复杂的地物，90尺度下存在欠分割，难以更好地表达地物的实际情况(图2).因此，通过多尺度分割，分层次分类可实现更好的分类.

　　2.2决策树建立

　　本研究针对植被区域对决策树分类效果进行比较.在植被区域选择和提取出训练样本共176个，基于R软件下的C5.0和rpart包，实现C4.5和C5.0决策树建模，将得到的模型利用eCognition软件的if和else功能建立相应决策树实现分类.同时，基于eCognition软件自带的CART模型建立决策树.本研究将提取的训练样本共计21个特征属性值作为测试变量，杉木、马尾松、阔叶树、未成林造林地和耕地作为目标变量.将数据整理后，用不同模型分别进行数据挖掘，建立决策树(图3).建立不同决策树用到的变量主要有亮度、蓝绿红3波段标准差、近红外波段均值、密度、面积、同质性、形状指数、SAVI等10多种变量.其中，对象亮度值是最重要的变量之一，在C5.0和CART决策树中均为首个分割特征;而后，根据不同算法，选取不同特征值实现类别的划分.

您身边的学术顾问

基于不同决策树的面向对象林区遥感影像分类比较