摘要:层次聚类分析作为一种常用的聚类分析方法,能有效识别环境监测数据集中的隐藏关系。文章主要介绍了层次聚类分析在水、大气、土壤等环境监测数据分析中的应用,提出以热图形式优化层次聚类分析可视化结果,并对热图在土壤污染状况调查项目的应用进行展望。
关键词:层次聚类分析;环境监测数据分析;热图;应用
引言
定期的环境监测会积累庞大而复杂的化学数据集,越来越多的研究者开始关注数据集中的内在关系。多元统计分析是研究多变量相互之间关系的统计分析方法,是环境监测数据分析的有力工具。常用的多元统计分析包括聚类分析、主成分/因子分析、判别分析等,其中聚类分析不仅用于环境管理研究,而且在环境监测领域发挥巨大作用。聚类分析可识别变量间的隐藏关系,仅用一小部分因子表示,且没有损失太多数据信息,有利于研究者快速掌握环境介质污染状况,判别各介质中潜在的污染来源[1]。
1聚类分析方法介绍
聚类分析也称集群分析、分类分析或数值分类,其基本思想是按照所研究的样品或变量之间存在相似性或不相似性,以一些能够度量样品或变量之间相似程度的统计量作为划分类型的依据,将数据分为若干类别,使类别内样品(或变量)差异尽可能小,类别间差异尽可能大。通常用距离来度量样品之间的相似性,用相似性系数来度量变量之间的相似性,结果以聚类树状图显示。聚类分析是一种探索性分析,按聚类的方法可分为层次聚类法、非层次聚类法等。其中,常用的是层次聚类法,也称系统聚类法,其实质是根据变量或样品之间的亲疏程度,从最相似的对象开始,逐步聚成一类[2]。按照分析的对象不同聚类分析也可分为样本聚类(Q型聚类)和变量聚类(R型聚类)。该文将主要介绍层次聚类分析在环境监测数据分析中的应用。
相关期刊推荐:《资源节约与环保》杂志是天津市经济委员会主管,天津市节能协会主办的国内外发行的月刊杂志,杂志创刊于1984年。刊发有关经济建设、资源节约、环境保护、清洁生产、综合利用以及节能、节水新产品、新技术建设小康社会的信息。
2层次聚类分析在环境监测数据分析中的应用
层次聚类分析作为一种常用的聚类分析方法,可有效降低原始监测数据集的维度,简化数据的复杂程度,以监测点位、时间、指标和污染评价结果等为对象进行聚类分析,便于分析各指标时空分布特征及指标间的相关性。适用于不同环境介质监测过程获得的数据。近年来,层次聚类分析作为传统多元统计方法,常用于地表水、地下水、大气和土壤环境监测数据分析[3]。对地表水体的监测点位和时间进行层次聚类分析,可得到若干点位集群和时间集群,监测点位和时间的层次聚类分析结果可作为采样断面和频率优化的重要依据,可有效降低采样成本[4][5]。除分析监测数据集的时空变化特征外,层次聚类分析也用于监测指标的统计分析,便于判别污染来源。秦文婧等对柳江煤矿所在区域的地下水中的离子进行层次聚类分析,得到不同离子的相似来源,有助于分析煤矿对区域地下水水质造成的影响[6]。
层次聚类分析同样适用于大气污染物时空分布特征研究和污染溯源。陈杨欢等在分析上海市大气PM2.5时空分布特征时引入层次聚类法,揭示不同季节和地理位置的大气PM2.5浓度相互关系[7]。刘杰等对陕西省某工业园区春季大气降尘中的重金属进行聚类分析,判断该工业区重金属污染主要受金属冶炼、交通运输和燃煤等影响[8]。相对水和大气环境的环境监测,土壤环境监测频次较少,监测数据集通常由空间维度不同指标监测浓度组成。因此,层次聚类分析法也可适用于土壤环境污染物的空间分布特征分析和污染溯源方面。方淑波等在研究浦东新区土壤重金属沿城乡梯度分布特征时引入层次聚类分析不同金属的空间差异性,识别出城市土壤重金属环境风险的优先控制区域[9]。
通过对土壤污染物指标的聚类分析,可协助识别污染源。如有研究者以铅锌尾矿区的11种重金属为研究对象,采用层次聚类分析等统计学方法判断尾矿区重金属来源[10]。层次聚类分析在城市、农村等土壤环境污染溯源方面取得了较好的效果,但该方法在建设用地土壤污染状况调查数据统计分析中的应用鲜有报道[11]。利用层次聚类分析具体地块土壤污染调查监测数据集,既可体现污染物在采样点位的分布特征,又能判别检出污染物之间的相似程度,有助于深入剖析地块土壤污染状况和污染来源。此外,土壤监测数据层次聚类分析结果可佐证资料收集、人员访谈、现场踏勘等工作阶段识别的污染源,间接反映出前期调查的完整度和准确度。
3层次聚类分析可视化结果的优化
层次聚类分析结果以聚类树状图显示,仅能显示单个维度的分析结果。将样本和变量之间的层次聚类分析结果进行组合,可呈现两个维度的聚类结果,对于数据的分析和表达将更有效。Laursen等建立了双层次聚类分析,用于识别在正常情况和肝硬化时丹麦人、格陵兰因纽特人体肝组织中的元素之间的相关性和协同作用[12]。双层次聚类分析同样适用于环境监测领域。Ma等检测了黄河的三个区域沉积物中重金属的浓度,水平系统树图中包括重金属与pH、总碳、总有机碳和地区生产总值的聚类结果;垂直系统树图是采样位点的聚类结果[13]。由此可知,双层次聚类分析结果体现更多的数据集信息和统计分析结果。热图是一种常见的可视化方法的形式,可将多维数据以二维的方式完全直观地呈现,并用颜色梯度变化来表示数值的大小[14]。热图已在在群落生态学、生物分类学与系统学等方面应用广泛[15]。
环境监测获得的数据集通常包括时间、空间、指标等多维度信息,热图对层次聚类分析结果的可视化也有利于解释实际环境数据,但将热图应用于环境监测数据集的统计分析的研究较少。采用热图解析环境监测数据和相关污染指标之间的相关性,既可保留原始数据的完整性,也能显示双层次聚类分析结果。因此,在环境监测数据集的分析中利用热图分析监测结果更为直观,且有助于污染溯源分析。
结语
层次聚类分析有助于识别环境监测数据集中的内在联系,能较好地应用于环境污染物时空差异性分析和污染溯源。目前,该方法主要用于大尺度空间领域的环境监测数据统计分析,而在实际项目中的应用较少。鉴于热图在统计分析和可视化方面的优势,该方法完全可用于具体土壤污染状况调查项目。通过热图分析监测数据集,挖掘阐释污染物间的相似性以及空间上差异性,以提高污染源识别的有效性和精准度。——论文作者:汪宇鹏
* 稍后学术顾问联系您