由于在航空运输领域中使用应用经济计量模型预测航空客流量有一定的局限性,因此本文采用粗糙集理论分析区域航空客流量。在选择影响区域航空客流量因素的基础上,制定相应的航空客流量决策表,并且得出我国31个地区的航空客流量生成规则,最后采用这些规则对区域航空客流量进行预测,并且取得比较理想的预测结果。因此,本文在这方面作一个尝试,并通过实例阐明粗集理论在航空客流量方面的应用是适合的。
关键词:粗糙集,航空客流量,连续值离散化
为了识别航空客流量与其决定因素之间的关系并对前者进行预测,目前最常见的方法是建立经济计量模型。这些传统模型建立在各种统计假设的基础上,因此当变量之间相互依存、变量的概率分布未知时,那么这些模型就无法得出比较准确的结果。为此本文试图探讨一种基于粗糙集理论的航空客流量预测模型。作为计算智能方法之一的粗糙集理论(Roughsetstheo-ry,简称RS)是波兰数学家ZdzislawPawlak于1982年首次提出的。粗集理论诞生的30多年来,已成功地在许多领域中得到应用,然而在航空运输领域中还没有见到关于粗集理论的应用文献。
1.基于粗糙集理论的方法
粗糙集理论中的知识表达方式一般采用信息表或称为信息系统的形式,信息系统可用四元有序组K=(U,A,V,ρ),在该式中,U是一个非空有限的对象集合,U={X}1,X2⋯Xn称为论域;A是一个非空有限的属性集合,A={a}1,a2⋯an;V=∪a∈AVa是属性A所构成的值域集合,Va是属性a的值域;U中任一元素取属性a在V中有唯一确定值。ρ:U×A→V被称为信息函数,ρ:A→V,x∈U,反映了对象x在K中的完全信息,其中ρ(a)=ρ(x,a)。如果A=C∪D且C∩D=ф则信息系统又可称为决策表,其中C为条件属性集,D为决策属性集,常记为(U,C∪D,V,ρ)。在决策表中,不同的条件属性具有不同的重要程度,一些属性提供了丰富的信息,对产生决策起到至关重要的作用,而其他一些属性却似乎是可有可无的。
因此,在保证决策表具有正确分类能力的同时,对条件属性进行简约,去掉不必要的属性。为了度量属性集合的不确定程度,引入精度和覆盖度两个概念,且定义为:dR(X)i=card()-aprXi/card()---aprXi(1)dR(F)=∑card()-aprXi∑card()---aprXi(2)d'R(X)i=card()---aprXi/card(U)i(3)d'R(F)=∑card()---aprXi/card(U)(4)式(1)和(2)分别为属性集合Xi的分类精度和覆盖度,式(3)和(4)分别为所有属性集合的总分类精度和总分类覆盖度。
2.粗糙集在区域航空客流量中的应用
2.1航空客流量影响因素分析。分析我国航空运输业特点,并结合相关已有的研究,本文采用六个影响因素来预测各地区航空客流量:人均GDP、人口、第一产业就业人员的比重、城市人口、国际旅游人数、与航空枢纽的距离等。这六个因素就是六个条件属性,而决策属性就是各地区的航空客流量,研究对象则是我国大陆的31个省、直辖市、自治区。每个对象由一个多值属性(即条件属性和决策属性)的集合来描述,从而形成一个二维表格,即决策表,表格的“行”与对象相对应,表格的“列”对应于对象的属性,表中为具体的属性值。条件属性中的“人均GDP”“人口数”和“第一产业人员比重”均为传统需求模型中所常用的经济变量。
“城市人口数”的选取主要是考虑城市规模对航空客流量的影响。“国际旅游人数”的选取主要是考虑该属性能间接反映某地区旅游资源的多少,它能解释对于当地经济并不发达的地区(如云南)却有较多的航空客流量。关于“与航空枢纽的距离”这个属性,从我国航空运输格局来看,北京、上海和广州是三大航空枢纽,因此这三个地区的该属性值为“0”;天津离北京很近,而北京又处于河北的中心,所以天津和河北的该属性值均为“1”,表示“特近”的含义;另外,由于江苏的常州、无锡、苏州、昆山等经济重心紧靠着上海,所以其“与航空枢纽的距离”属性为“2”,表示“近”的含义;其余地区类推,数字越大的地区表示该地区与航空枢纽的距离越远。在决策时,把决策属性“地区航空客流量”分成若干等级,运用粗糙集理论得出每个“地区航空客流量”等级所对应的生成规则。
2.2数据离散化。在应用粗糙集理论对实际数据进行分析和获取知识时,一般要求由实际数据构成的决策表中各个属性值必须用离散值表达。如果某些条件属性或决策属性的值域为连续的,则在处理前必须经过离散化。所以对于下表1中的连续型数据需再进一步离散化成分类数据值以适用于粗糙集的方法。对粗糙集连续属性离散化的方法一般是采用其他领域已有的离散化方法,本文采用熵方法对连续型数据进行离散化。设P⊆A,U/P={C}1,C2,⋯Ct,则U中对象x属于等价类Ci的概率为pi=||Ci/||U,I=1,2,…,t,于是定义P对U的划分得到的熵为:
2.3决策规则。本文使用2012年至2015年四年共124个对象(共868个观测值),使用其中60%的对象作为训练规则用,去发现决策规则,其余的40%的对象(即50个)作为预测用,以验证规则的有效性。在使用粗糙集方法后得出了表2中的航空客流量决策规则的主要部分。第一条规则的含义是:如果某地区人均GDP小于7198元且人口数小于2642万人且第一产业就业人员比重大于等于50.5%且国际旅游人数小于44.5万人,那么该地区航空客流量就小于200万人次,其余的规则含义类推。该规则把航空客流量影响因素的定性和定量两方面很好结合在一起,另外,同样的航空客流量可以由多条规则产生,这符合实际情况。从规则中各属性出现的频次可得出各属性的重要程度,从多到少依次是“第一产业就业人员比重”“人均GDP”“人口数”“国际旅游人数”和“与航空枢纽的距离”,而“200万人口以上城市数”被约简,从未出现过。
运用上述公式,对用于测试的50个地区进行拟合,得出表3中的预测结果。在被测试地区总数中,等级4的上近似集合中地区实际个数是12个,被正确预测的为10个,预测精度为83%;等级3的上近似集合中地区实际个数是19个,被正确预测的为17个,预测精度为90%;等级2的上近似集合中地区实际个数是10个,被正确预测的为8个,预测精度为80%;等级1的上近似集合中地区实际个数是8个,被正确预测的为8个,预测精度为100%;全部等级的总体精度为88%。另外,等级3中有一个地区的覆盖度为95%,从而使总体覆盖度为98%,因此粗糙集理论应用在航空客流量预测中是可行的。
本文论述应用粗糙集理论及其模型对我我国区域航空客流量进行预测,得出了一些预测规则,其预测精度较高。与许多传统模型需要建立各种统计假设基础不同,该方法仅需对属性值进行分类。区别于复杂的数学公式,该方法的分析的结果以规则形式进行描述,直观并容易理解。此外粗糙集能够使用定性数据,无须转换成数值,因此可以有效地防止信息失真。当然,针对不同时间段的航空客流量数据进行动态规则的形成是有待进一步解决的问题。
参考文献:
[1]张文修,吴伟志,梁吉业等.粗糙集理论与方法[M].北京:科学出版社,2001.
[2]张永莉,张晓全.我国城市间航空客运量影响因素的实证分析[J].经济地理,2007,4:20-24.
[3]中国民用航空局发展计划司.从统计看民航[M].北京:中国民航出版社,2012-2015.
[4]中华人民共和国统计局编.中国统计年鉴[M].北京:中国统计出版社,2012-2016.
推荐阅读:航天控制航空类期刊投稿
《航天控制》是国内外公开发行的中央级科技期刊,创刊于1983年3月,是由中国航天科技行业卓有成就的北京航天自动控制研究所、北京控制工程研究所和上海八部等三家单位联合主办,有关航天运载器、空间飞行器制导导航与控制系统及有关地面测试发射控制系统的专业技术刊物。
* 稍后学术顾问联系您