内容提要:互联网发展从IT到DT已经成为必然的趋势,本文研究了DT时代的统计思维,提出了互联网统计概念和互联网统计体系的基本内容,研究了面向未来发展的互联统计、互通统计、互动统计的互联网统计理论体系;考察了国际电信联盟、中国互联网络信息中心的互联网统计体系,以及国家统计局企业信息化和电子商务统计,指出了存在的问题和与实际需要的巨大缺口;最后,研究了互联网统计发展所面临的挑战,并提出了我国互联网统计发展的政策建议。
关键词:互联网统计;DT设施;互联网统计理论;统计分类标准体系
一、DT时代的统计思维
从IT到DT的发展¨j,反映了信息化到互联网,再到物联网的第四次工业革命的发展趋势。DT 的字面含义是数据技术,是信息技术(IT)发展后的新阶段,其中统计思维发挥着重要作用,具体表现在如下几个方面。
1.数据技术中的数据是指对全部社会信息和自然信息的数字化或数值化,包括从确定性到不确定性的全部问题,尽管所涉及的学科有计算机、通信、数学、概率论、数理统计、经济社会统计,但实际应用是统计思维,因为其背后涵盖了经济社会统计系统的生态解析与设计,以及以概率论与数理统计逻辑支撑的大数据和云计算。
2.数据技术中的数据互联形成复杂系统旧1,在人、物、事、时间、空间的客观一体化联系之中,必须要运用统计总体思想识别自然与社会生态中全部最小统计单位的编码标准,特别是要考虑时间变化、空间移动的复杂系统中的唯一社会历史性识别编码标准,以保证互联应用系统平台高效运维,否则,实现物联网下的智能化大数据和云计算是不可能的。我们曾提出互联网大数据云计算下,如果不产生数据垃圾,那么必须要做好全社会的大数据统计设计,其中国民经济统计标准编码是必要条件。
3.数据技术的内在要求是从微观到宏观的系统一体化,而且随着物联网深入发展,对自然与社会生态系统的解析和识别如同增加了“社会显微镜”,系统范围、层次、属性等的复杂性越来越高,按照统计思想的核算关系、相关关系、回归关系、因果关系,以及统计分布、分层、分位基础上的统计分类、相对统计分类①和统计模拟计算,将成为实现数据技术应用的重要基础理论、技术、方法。未来非常可能发展出一整套专门面向实际需要的互联网大数据的统计理论和方法。
4.数据技术内在要求的智能化,不仅包括物联网上的实时数据生态系统圈上的统计,而且还包括保持实时大数据生态系统圈中智能化目标的“大脑系统”的优化计算和监测、风险评估、决策等大系统统计理论方法的支持。因此,统计思维、统计思想、统计理论、统计方法、统计计算、统计分析、统计预测、统计决策等发挥着重要的作用。
当然,这是当今人类社会演化发展中的一项庞大复杂的系统工程,具体工作千头万绪,既然统计发挥着重要作用,那么,我们有必要从当今互联网发展中的传统统计向互联网统计演化发展的角度做出一些联系实际、又能窥测方位的研究,因此,本文以互联网统计研究为题,密切联系互联网实际问题,从存在的狭义或不完全的互联网统计实践人手,做出科学分析研究,抛砖引玉,以推动这一新统计的科学发展。
二、互联网统计概念、体系及理论创新
(一)互联网统计概念
我们以“互联网+”和“+互联网”所需要的完整统计目标来确定互联网统计的研究对象,即以参与互联网的全部活动内容为统计对象,包含互联网技术中的大数据、云计算及个性化服务、智能化支撑的互联网统计体系和统计方法研究。互联网统计产生于互联网技术条件之下,一切数据信息来自于互联网系统之中。从目前存在和发展过程看,直接来自互联网应用平台系统的统计是最具互联网技术特征的互联网统计,也是未来发展的核心主体,其中包括连接物联网所生成的互联网统计数据信息。除此之外,互联网文本信息、图像信息、音频信息转化为统计数据信息也是互联网统计的重要组成部分。因此,互联网统计是基于互联网技术基础,应用互联网思想,来源于互联网数据信息,生产于互联网的统计体系,以及支撑互联网统计应用的统计理论方法,是实现互联网、物联网的互联、互通、互动一体化量化的根本手段和科学方法。
(二)互联网统计的基本框架
互联网统计体系是以互联网技术和互联网应用作为客观依据的,其中,目前社会理解得更多的是互联网应用。显然,互联网应用可能也不局限于电子商务或网络购物、网上服务与网上支付,因此,如果对互联网技术和互联网应用理解得不够全面,对于互联网统计体系就难以科学把握。
互联网统计体系需要从微观层面和宏观层面综合考虑,微观层面包括对互联网应用平台系统的网络互联技术、终端技术、应用软件系统、运维、安全等的深刻理解,关键是“互联网+”和“+互联网”的实际作用细节,统计要满足这些方面发展的需要。宏观层面的考虑主要是第四次工业革命的体现,也就是在人类社会发展中,创造了世界和国家层面的互联网技术基础设施,而且,它成为其他基础设施最重要的前提,也就是未来发展DT基础设施的第一位基础设施。以满足人类社会发展的物联网为基础目标的互联网技术基础设施所包括的内容,应该建立科学的统计体系,不仅反映发展水平和结构特征,而且要满足智能化的DT生态圈发展中的统计。
实际上,所有社会经济活动都会链接互联网技术,互联网中的有些内容是全新的,而且还会强劲地创新发展。但是,作为人类社会发展,内在的传承发展也是必然的,哪些内容是传承演化的,它们如何与互联网技术相衔接,又如何升级换代,都需要在互联网统计体系上研究清楚。
互联网统计体系主要包括:
1.互联网技术基础设施统计。包括NII的主要内容,具体有互联网网络技术水平如2G、3G、4G、5G 等光纤网络宽带、终端设备、基站、星际网络、无线频谱资源利用等统计。统计体系可以考虑实际使用的统计和相关产业生产及科研技术产出的统计。许多细节需要将互联网技术与产品、软件与服务等社会分工协作的价值链关系做出详细的流程及分类梳理,并建立互联网技术及应用的统计标准。
2.互联网应用平台统计。实际发生的是“互联网+”和“+互联网”的经济活动与社会活动。在目前阶段,互联网统计思维还是要继承生产、分配、消费、融资、投资的社会再生产过程与国民经济行业部门的纵横二维的大系统统计结构,但是,新的统计体系要从互联网技术的应用平台出发,按照互联网企业的社会责任和公共统计服务的要求立法,以及在全社会开展互联网企业应用平台统计体系设计与数据开发研究工作,积极推动互联网企业科学建设统计体系和利用互联网统计为企业经营发展服务的可持续研究,因此,在统计设计上,工商部门应细分互联网技术应用平台的登记管理类别,逐步把互联网技术应用平台分类与经济活动分类交叉结合起来,建立适应互联网技术应用平台生态圈的新分类标准体系,这是积极推进互联网应用统计的首要条件。当然,还要全面升级单位唯一识别编码标准和产品、服务分类动态编码标准等工作,为尽早形成我国的互联网统计体系奠定科学基础。
3.个人互联网活动统计。目前进行的是网民统计,但是,随着互联网逐步形成基础之后,所有的活动都要在互联网上运行,届时个人互联网统计将成为互联网统计体系的一个重要组成部分。追求个性化服务与3D打印技术的互联网柔性生产,是个人互联网活动统计体系设计的客观依据。个人互联网活动统计,主体是需求侧统计,从选取网络技术、移动终端产品、接入方式,到个人偏好、社会交际、购物、服务、金融、保险、社会保障、社会志愿者、公益活动、媒体活动、休闲、体育等等,将形成非常复杂的统计。与传统统计不同,个人互联网活动统计发展会成为未来互联网统计体系的主流。
4.智能化技术统计。智能化是互联网技术应用发展追求的生产力目标,可以分主流产品建立为生产和科研服务的智能化技术统计体系。在智能化技术分类标准设计上,互联网技术与智能化结合将成为划分与选定的依据。
5.互联网专项服务内容统计。包括互联网金融统计、互联网知识统计、互联网教育统计、互联网协同创新平台统计等,即根据发展所建立的专门领域互联网统计,也是互联网统计体系的重要组成部分。
(三)互联网统计理论
从互联网统计坐标系出发,对从计数开始的统计发展阶段进行考察,包括计数统计、实验统计、观测统计、普查统计、抽样调查统计、报表统计、信息化统计、互联网直报系统、互联网应用平台统计、互联网爬虫统计、物联网传感智能统计。互联网统计是迄今为止统计最高级的发展阶段。
统计数据从硬数据到软数据,软数据从问卷调查到文本挖掘,表现出统计数据映射客观实际的统计总体范围不断扩大。从传统的大量经济数据(个人、单位、市场、组织主体属性,总体结构包括截面与过程)、大量社会数据(个人、单位、文化、教育、宗教、组织主体属性,总体结构包括截面与过程),到互联网技术,一方面使经济社会统计数据更加一体化,逐步形成从微观到宏观、经济因素与社会因素一体化的庞大复杂的统计数据体系,再到以数字地球的地理信息的时间空间数据为基准的目标体系,在互联网技术中不断扩大生产过程的技术数据、业务数据、流程数据、传感数据、行政数据。统计数据属性范围不断扩大与互联网技术发展密切相关。互联网统计技术对统计工作的影响越来越大,统计技术和理论方法也对互联网技术及其应用的发展具有重要的支撑作用,集中体现在互联、互通、互动统计上的发展。
互联网统计的创新性主要体现在互联统计、互通统计、互动统计(见图1)。互联统计主要是以信息化实现传统统计内容的网络直接传输和一体化整理,是在互联网技术基础和条件下,以互联网所创造的,或不断创造的前所未有的人类社会活动、经济活动、自然活动的庞大复杂的互联网络系统为统计对象,以数字地球和星际网络为基础的地理信息系统为互联网统计时空坐标系,建立全球互联网统计数据生态圈的新统计体系。云数据库、云计算、云服务、虚拟产品、虚拟服务成为互联网技术应用的强大推动力,也构成互联网统计发展的重要基础设施。互联统计以融人互联网技术的统计大系统设计、云数据库、云计算、云服务为基本特征。
互通统计是针对互联网信息内涵技术统计特性的统一,或互联网系统信息的统计数据技术统一标准化。互联网数据信息来源广泛,包括自然属性、社会属性、学科属性、专业属性、技术属性、组织属性、产业属性。我们看到,非互联网条件下逐步形成了强大的局部数据信息系统,例如国家统计局的统计数据、财政部会计数据信息、科技部科技数据信息、国家标准委员会产品技术标准和服务标准信息、文化部文化产业及市场数据信息、环保部环境监测数据信息、国家无线电频谱监测中心的无线电频谱监测数据信息等等,这些数据信息各自独立、无法形成统一有效的统计数据信息。利用互联网技术、物联网技术、统计技术,即以互联网统计理论方法为工具,整合形成庞大复杂系统的互联网统计即互通统计,从而支持互联网技术的应用发展。互通统计以互联网技术为支撑的大系统统计标准及动态标准化为特征。
互动统计是一种全新的统计,一方面反映互联网数据信息大系统的动态化过程,另一方面反映互联网大系统中参与主体之间的相互学习、累积知识的创新发展过程,集中表现在互联网大系统中的个性化服务和智能化统计支撑的科学描述、科学分析和科学决策及过程优化控制的统计数据和统计方法的一体化作用。互联网大系统中的主体互动和相互深度学习与指挥控制是互动统计的基本内容,是推动统计面向未来发展的根本途径。互动统计以互联网技术为支撑的大系统统计最细主体及总体动态化编码标准为特征。
互联统计相对于传统统计,创新点是针对依据智能化传感、穿戴设备等信息采集技术,按照大系统互联要求并且使用目的从技术、业务、自然数据信息向社会数据信息转换的统计数据信息标准化,即创造基于统计学的大数据技术标准体系,力求各种现代智能或自动设备生产数据信息并互联网时总体差异最小化。互通统计相对于传统统计,创新点是在更大的系统范围建立统计数据标准化的一致性,即创造基于统计学的大数据社会标准体系,从而保证源于不同属性的数据在统计上的一致性,也就是力求所有社会活动所生产的数据信息具有一致性,主要方法是发展更加精细、更加全面的分类标准体系。互动统计相对于传统统计,创新点是全面研究自然与社会动能的主体源及统计分类标准体系,创造基于统计学的大数据主体标准体系,即建立最小单位并且相互独立、具有唯一性的主体分类体系及编码标准体系。
尽管互联网统计有许多全新的内容,但是,传统统计的内容仍然是其出发点:第一,传统统计的产品分类、服务分类、行业部门分类、机构部门分类,仍然是互联网统计的基础,只是需要更加详细分类。传统统计由于市场交换等节奏慢,为了提高及时性对数据质量都做了分类处理。互联网统计可以利用计算机高性能存储和运算等功能,全面实现个性化服务,因此,互联网统计与传统统计之间的思维逻辑是一样的,只是前者可以将产品、服务、行业分得更细,也就是使生产技术特征与需求技术特征交叉到更细的定义标准;使机构部门的分类细致到以个人身份证号码为起点,即把社会主体完全统一到一个方向上,发展全新的个人+社会产权属性基础上的组织机构编码标准及其分类标准。第二,互联网统计需要把传统统计的时间、空间合为一个整体,并且形成连续细分的统计特征。这实际上是对第一点要求增加分类的历史连续性,例如一个人活着时的统计数据和逝世后被使用的统计数据保持连续,产品或服务随着时间的更新换代后的分类也要保持连续性。第三,传统统计对人类社会的生产、分配、消费、积累等统计,与自然资源、自然环境、自然生态等统计是分开进行的,然而,随着互联网统计的发展,要追求自然与社会的一体化连续统计。
三、互联网统计的实践应用
(一)中国互联网络信息中心的互联网统计
1997年,国家主管部门研究决定由中国互联网络信息中心(CNNIC)牵头组织有关互联网单位共同开展互联网行业发展状况调查,每年1月和7月定期发布《中国互联网络发展状况统计报告》。 2016年1月的第37次统计报告【3J,是在国家“互联网+”行动计划提出和推进后,互联网对于整体社会的影响进入到新的阶段,CNNIC对国家互联网发第33卷第12期 赵彦云:互联网统计研究 -7 · 展统计体系做出了新的设计,形成了由互联网基础资源、互联网企业应用、互联网个人应用的总体统计框架,分别反映我国互联网基础资源发展情况,企业 “互联网+”发展情况,网民规模和结构、互联网接人环境、个人互联网应用的发展状况。通过以上三方面内容,力求准确、客观反映互联网在社会发展过程中的作用。从统计方法上,CNNIC建立了基于互联网的技术统计,以及针对企业开展互联网应用情况的抽样调查和针对网民的抽样调查,其中运用的互联网统计指标体系‘31如下。
1.互联网发展统计体系。
(1)互联网基础资源统计。具体统计内容包括:IP地址数、域名数、网站数、网页数、网络国际出口带宽。
(2)互联网企业应用统计。具体统计内容包括:企业互联网应用准备统计(企业计算机使用情况统计、企业互联网使用情况统计、企业宽带接人情况统计)、企业互联网基础应用统计(基础互联网活动统计、基层互联网专职岗位设置统计)、企业“+ 互联网”生产经营统计(企业“+互联网”系统建设统计、企业“+互联网”经营统计、企业网络安全防护系统建设统计、企业互联网专职团队设置与员工信息技术培训统计)、企业“互联网+”发展统计(移动互联网企业网络营销统计,云计算、大数据、物联网的认知与采用统计,互联网创新服务与智能制造的认知与开展情况统计,智能制造的认知与开展情况统计)、企业互联网规划与预期调查统计(决策层主导互联网规划企业比例调查统计、企业互联网预期作用强度调查统计)。
(3)互联网个人应用统计。具体统计内容包括:网民基本信息统计(网民规模统计、网民结构统计)、个人互联网接人条件与环境统计(个人上网设备统计、个人使用网络场所统计、个人接入网络统计、上网时长统计、安全环境统计)、个人互联网应用发展统计(个人基础应用类应用发展统计、个人商务交易类应用发展统计、个人网络金融类应用发展统计、个人网络娱乐类应用发展统计、个人公共服务类应用发展统计)。
2.互联网统计方法。中国互联网数据平台由中国互联网络信息中心(CNNIC)发起并运行,采用固定样本组(Panel)的研究方法,通过调查客户端实时、连续采集中国网民样本的互联网使用行为数据,并对数据进行统计分析,从而客观、及时地反映中国互联网发展状况的多个层面(宏观与微观等),为互联网行业参与者提供多方面决策支持。中国互联网发展状况统计主要包括四方面的内容。
(1)全国网民抽样调查。为最大限度地覆盖网民群体,采用双重抽样框方式进行调查。第一个抽样框是固定住宅电话名单,调查子总体A。第二个抽样框是移动电话名单,调查子总体B。对于固定电话覆盖群体和移动电话名单总体,分别采用分层二阶段抽样方式。为保证所抽取的样本具有足够的代表性,将全国按省、直辖市和自治区分为31层,各层独立抽取样本。省内采取样本自加权的抽样方式。各地市州(包括所辖区、县)样本量根据该城市固定住宅电话覆盖的6周岁以上人口数占全省总覆盖人口数的比例分配。对于手机覆盖群体,抽样方式与固定电话群体类似,也将全国按省、直辖市和自治区分为31层,各层独立抽取样本。省内按照各地市人口所占比例分配样本,使省内样本分配符合自加权。通过计算机辅助电话访问系统(CATI)进行调查。调查总体样本60,000个,其中,住宅固定电话用户、手机用户各30,000个,样本覆盖31个省、自治区、直辖市。
(2)全国企业抽样调查。采用分层随机抽样。根据国家统计局发布的相关标准将31个省、市、自治区按照经济发展水平分为东部、中部、西部和东北地区四个类别。企业法人单位分为18个行业大类。 CNNIC按照各行业在互联网使用情况方面的共性和差异,将原18个行业大类合并为9个行业类别。按地区及合并后的行业两个指标进行交叉分层,将总体划分为4水9共计36个层。根据2008年第二次全国经济普查企业法人单位的省市、行业分布情况,在每层中等比例分配样本量。在每层中随机抽取企业法人单位进行调查,最终有效样本共3000家企业。采用电话调查(CATI)的方式。
(3)网上调查。重在了解典型互联网应用情况。CNNIC在2015年12月1日至31日进行了网上调查。将问卷放置在CNNIC的网站上,同时在各类大型网站上设置问卷链接,由网民主动参与填写问卷。
(4)网上自动搜索与统计数据上报。网上自动搜索主要是对域名、网站数量及其地域分布等指标进行技术统计,而统计上报数据主要包括IP地址数和网络国际出口带宽数。工业和信息化部通过报表制度,定期得到各运营商与其他国家和地区相连的网络出口带宽总数。《中国互联网络发展状况统计报告》中纳入了工业和信息化部通过统计报表逐级上报的统计数据。 ——论文作者:赵彦云
本文来源于:《统计研究杂志》创刊于1984年,本刊为月刊,本刊作为“交流科研成果,繁荣学术研究,创新理论知识,推动实际工作”的窗口。设有:统计基本理论问题,统计理论方法与应用,经济分析与统计分析,经济核算问题研究,其他等栏目。
* 稍后学术顾问联系您