[摘要]获得精细尺度城市房价制图对城市发展研究及相关政策制定至关重要。然而由于过去的房价预测方法没有对多源数据进行融合,单一数据源有偏性使得房价制图及预测无法达到精细尺度。本文拟从多源空间数据融合的角度出发,通过深度学习的方法建立耦合卷积神经网络和随机森林拟合模型的武汉市城市房价预测模型,在精细尺度上模拟武汉市房价分布。实验表明预测模型可以有效地对武汉市房价做出预测,同时表明融合高分辨率遥感影像和社交媒体数据的模型能够得到比传统使用单一数据源的网络得到精度更高的预测结果。
[关键词]多源空间数据融合;深度学习;房价预测;空间分布;城市精细模拟
0引言
中国经济和民生的首要问题就是居民住房高需求与高房价之间的矛盾问题。武汉作为湖北省的省会,是华中地区最大的城市,随着长江经济带的确定和重点建设,武汉经济愈加迅猛发展,城市建设力度大。研究武汉市的房价分布,对武汉市房价未来发展做出精细预测,对确定武汉市土地利用情况[1-2],合理住宅补贴水平[3-5],制定合理社会经济政策有着重大意义。
有学者利用空间数据单一数据源对房价进行预测,但会因数据有偏性[6]使得房价制图及预测研究无法达到较为精细的尺度。随着空间大数据迅猛发展,“社交感知”和“城市计算”逐渐兴起[7],多源数据融合已成为解决传统遥感影像在城市规划应用中存在的问题、提升遥感影像应用能力的重要手段[8]。
利用卷积神经网络等深度学习框架,构建利用遥感影像和社交媒体数据融合的多源数据融合模型,挖掘高分辨率遥感影像数据和社交媒体数据的多源空间地理信息,以精细模拟武汉市房价空间分布,实现武汉城市房价预测,填补在精细尺度上开展城市房价空间分布研究的空缺。
1研究区概况和数据准备
1.1研究区社会经济概况
武汉地处江汉平原东部、长江中游。武汉的地理位置刚好在全国中东部地区的地理中心部位,即胡焕庸线以东,人口最密集,经济最发达区域的中心位置,是湖北省省会、中部六省唯一的副省级市和特大城市,也是长江经济带核心城市。总面积8494.41km2,2017年常住人口1091.4万人。
1.2数据说明
LocalSpaceViewer(LSV)三维数字地球软件,它集成了GoogleEarth、天地图等影像和三维地形在线服务,可以获取武汉地区5米级的高分辨率遥感影像数据。
随着互联网技术发展,在线房地产市场提供大量有关房地产交易、房屋价格等实时住房信息[9]。
通过使用Chrome浏览器自带的开发者工具,分析待爬虫网页的组织结构,为爬虫提供参考。使用Python的requests、bs4模块实现网络爬虫。requests模块主要用于发送及响应网络请求,而bs4模块主要用于解析网页。此外,使用pandas模块可将爬取的数据导出为csv文件,易于查看使用。从房天下网中获得武汉房价数据,共44134条,每条信息包括小区名称、楼层、朝向、建筑面积、建筑年代、地址、单位价格、总价格等内容。基于百度API接口可批量实现地址解析,得到经纬度信息,由此整合得到的房价数据的主要信息如表1所示。再经过数据清洗去除异常数据,并将非数字的数据量化,以便用于数学分析。
将所有房价数据依据其经纬度信息添加到武汉地区的行政区划图中,可以得到房价数据的空间分布情况,如图1(a)所示。目前在中国的房地产市场上,影响房价的主要因素有交通、医疗等方面的便利程度[10]。因此,本研究选取若干和房价密切相关的地物,在百度坐标拾取系统中获取带经纬度信息的POI数据,包括地铁站154条,公交车站875条,商场337条,学校655条,医疗设施647条。所有POI数据的分布如图1(b)所示。在OpenStreetMap上可获取武汉地区的路网信息,如图1(c)所示。图1辅助数据图
2研究方法
2.1辅助数据预处理
本研究中的辅助空间数据集主要由基于百度POIs,OpenStreetMap路网数据和基础地理信息数据计算生成的距离或密度数据集构成。选取对房价影响最大的因素,主要是交通、医疗设施和生活的便利程度等[10]。从百度POIs提取了和房价密切相关的地物,如公交站、地铁站、中小学、生活服务设施和医疗设施等。另外,同时考虑交通和环境条件对房价的影响[11],路网密度同样纳入考虑
基于之前网络爬虫得到的百度POI数据以及OSM路网数据可在ArcGIS里进行核密度分析,依照高斯核函数的MISE准则,自动判定最佳的核密度分析半径生成密度数据,并将计算结果可视化,如图2所示。
2.2基于卷积神经网络房价分布制图
基于卷积神经网络房价分布制图整体流程如图3所示。使用Arcgis对百度POIs,OSM路网和基础地理信息数据进行空间分析,生成核密度图,建立空间辅助数据集,结合遥感影像数据集,设定最大取样窗口为50像素,步长为25像素,取样后得到超过20000条数据的包含遥感数据和多源空间数据的多尺度融合数据集。
选取经过数据清洗和量化的房价数据信息用于房价预测来进行试验。将除房价以外的建筑面积、建筑年代等数据项作为备选的自变量,使用假设检验法经过多次迭代可求得最佳的自变量组合。
本文使用Yao提出的模型[12]。本文使用的卷积神经网络总共有10层,包括5个卷积层,3个极大池化层,一个全连接层以及末端的Soft-max层。随机选取其中80%作为训练数据,其余20%作为测试数据,用于训练精度验证和参数调整。CNN训练完成后,由随机森林拟合模型替换原有softmax层,用于拟合真实房价数据,将卷积神经网络生成的特征输入随机森林模型,构建CNN特征与实际房价分布之间的拟合模型。最终输出预测房价结果,得到房价空间制图。
2.3精度评价和不确定性分析
本研究采用了若干精度评价指标,对神经网络预测得到的房价结果进行定量评价,来定量评估本研究提出的模型最终房价制图的准确性。
3实验结果与分析
3.1基于不同数据融合模型的房价制图结果及精度对比
本研究设计3组不同方法和实验,方法A为仅输入遥感影像数据集,方法B为仅输入辅助空间数据集,方法C为联合挖掘包括高分辨率遥感影像和辅助空间数据的多尺度融合数据集。
表2显示了三种方法得到的房价拟合精度。由该表中数据可知,三种方法皮尔森相关系数均大于0.6,可以认为预测模型有效。比较可得,使用融合了遥感影像和辅助空间数据的多尺度融合数据集对网络进行训练,得到的制图结果精度在各项指标上都表现最好。单一数据源的空间变量结构和纹理信息少,挖掘遥感影像和多源空间数据的高层语义及上下文特征进行融合对预测结果有非常大的贡献。联合挖掘多源空间数据可以避免特征拼合因维度不一致而导致的过拟合问题,也能够获得到精度最高的空间分辨率城市房价空间分布制图结果。
同时,我们可以发现仅使用遥感影像比仅使用辅助空间数据的预测精度略高,说明传统的挖掘遥感影像地物空间信息的方法比单一挖掘空间数据特征能够提供更多潜在的空间结构和高维语义特征。
3.2精细尺度武汉房价空间分布结果及分析
对研究区的城市区域逐像元(空间分辨率:5m)计算房价(单位:元/平方米),结果如图4所示。总体来说,房价很高的区域主要集中于武昌区,江岸区及江滩沿岸,武昌区和洪山区接壤区域,而这些主城区区域的总体拟合精度也基本达到了90%以上。对房价预测结果进行分析,可以看到武汉市房价具有明显的多中心格局和分片区特点,房价受交通、生态环境、基础设施等条件影响显著。主城区房价呈明显的多中心格局,位于汉口江滩沿岸的永清片区,武昌积玉桥片区和楚河汉街中央文化区,是高房价集聚的热点中心,汉口、武昌片区房价普遍高于汉阳片区。
高房价聚集区均地处《城市发展规划2006-2020》规定的城市区域中心,同时商圈为这些区域房价升高做出重大贡献,如光谷商业圈周边配套设施不断升级,楚河汉街文化中心不断发展等。值得关注的是,武汉是教育大市,洪山区附近位于大学生活动范围内,人流量大,经济活动丰富,也是一个房价较高的聚集中心。不可忽略的是长江、东湖等水域提供了开敞空间功能和美好空间环境,其附近同样房价高昂。
4结束语
本文基于多源空间数据融合的思想,综合挖掘高分辨率遥感影像和社交媒体数据携带的多源空间信息与房价之间的关系,构建一个有效的深度学习卷积神经网络精细尺度下武汉市住房价格空间分布模型,并耦合随机森林拟合模型,最终得到武汉市房价精细分布制图结果,揭示武汉市房价空间分布特征。
实验证明,本文的模型可以在精细尺度上对武汉市房价做出有效预测,单一数据源的空间变量结构和纹理信息少,联合挖掘遥感影像和多源空间数据的高层语义及上下文特征进行融合对预测结果有非常大的贡献。最后,得到精细尺度武汉市房价空间分布制图,武汉市房价具有明显的多中心格局和分片区特点,房价受交通、生态环境、基础设施等条件影响显著。
可以注意到,研究中对遥感影像采用直接采样输入训练的方式,可能丢失遥感影像携带的社会地理信息,导致预测精度下降。在以后的研究中,应考虑充分利用遥感影像的社会地理信息,对遥感影像进行如提取功能区、提取建筑物后输入网络训练,以得到更高的预测精度及更精细尺度制图结果。
相关期刊推荐:《北京测绘》是具有实用性、超前性、信息量大、特点鲜明、融科技、信息、生产为一体的科技刊物。不仅是广大测绘工作者的学习园地,而且是了解测绘科技发展与市场动态的窗口。它以科学技术是第一生产力为指导,以推动科学技术成果转化为生产力为目标,以宣传和贯彻党在测绘科技方面的路线、方针、政策及北京市地方法规,并紧密结合城市测绘生产、管理、科研、教学等开展学术交流、介绍测绘体制改革的经验为宗旨,为测绘各界传播高、新科技信息提供全方位的服务。
* 稍后学术顾问联系您