摘要:采用复杂网络分析特定属性群体。以互联网企业高管简历作为原始数据,以高管姓名和分词系统抽取实体关键词作为节点,个人简历中是否包含关键词作为连接边的条件进行建模,使用复杂网络理论对所建网络进行分析。实验结果表明,部分关键词节点度值存在明显差异,归一化后的特征向量明显大于介数。通过统计分析发现,美国和北京相关背景很重要,同时对比归一化后的介数和特征向量证明两点:第一,社会关系中个体涉及的实体对象比在社会关系网络中的位置更为重要;第二,跨行业跳槽人员的职业背景经历可能会给其在新的企业中的个人发展带来不利影响。
关键词:复杂网络;分词系统;中心性
人类对于网络的研究由来已久,18世纪伟大的数学家欧拉对于七桥问题(Konigsberg)的研究是目前公认的最早关于网络的研究。20世纪60年代由Erdos和Renyi两位匈牙利数学家建立的随机图理论(randomgraphtheory)[1]被公认是在数学上最早开创了复杂网络拓扑结构的系统性分析。在20世纪末,小世界网络模型[2]和无标度网络模型[3]的相继提出,使得复杂网络成为学术界热门的研究方向。而且小世界网络模型和无标度网络模型有着和现实世界网络[4]相似的网络特性。例如,小世界网络的小世界性和高聚集度系数;无标度网络的小世界性和节点度分布服从幂律分布的特点。不过,这两种网络都存在一定的不足之处,如小世界网络的节点度值服从指数分布问题及无标度网络的聚集系数很小等问题,但实际上现实世界的网络也存在着不同程度的差异。针对以上网络,大量的学者进行了改进,如Newman和Watts对小世界网络模型作了进一步改进[5],使得网络不存在孤立节点,也是目前最广为使用的小世界网络模型;Li等对无标度网络模型作了进一步改进[6],由于网络中的节点并不能获取到网络的全局信息,从而提出了局域世界概念。
使用复杂网络来对现实世界中的一些问题进行研究,可以指导和预测现实世界中事物的发展趋势和走向,将现实世界中的有限资源合理利用,使得资源利用效益最大化。同时也可以利用复杂网络分析现实世界网络的脆弱边或是脆弱节点,从而有针对性地改善和防止问题的发生。肖盛等[7]基于复杂网络理论对某地区真实电网进行脆弱性评估,结果表明,分析所得脆弱节点的分布情况与该地区电力网络脆弱节点的真实情况基本相符。谭阳红等[8]对传统评估电网节点重要度的方法进行了改进,引入相对熵和灰色关联度,提高了评估结果的准确度。文献[9]以武汉市路网作为原始数据,通过计算复杂网络的中心性,发现武汉市路网具有层次结构特征且结构构成符合“二八分率”的规律。文献[10]分析了我国矿业并购演变过程,通过计算中心性指标,使用K-核分解算法发现矿业并购市场易受到外部环境影响等特点。这也就进一步证明了复杂网络不仅具有理论研究价值,同时也具备在现实中的应用价值。
现实世界中充斥着各种各样的信息,按照类型可分为文字、视频、图片及音频等,但最为常见的还要属文本信息。而文本信息为了提高可读性和信息逻辑性,在表达上存在着冗余性,如文本信息中的介词、代词及标点符号等内容实际上一般并不包含有效的信息要素。为了提取出文本信息的有效信息要素,必须使用合理的分词方式来实现。分词是指将连续的字序列按照一定规范重新组合成词序列的过程。其中,分词的规范重组部分实际上是分词的核心部分,因为,无论中文还是英文都不能完全按照固定模式进行分词,文本信息中往往会含有大量专有名词、机构名、人名及地名等信息,如果按照完全固定模式分词,会使大量文本有效信息失真,所以,分词时必须进行文本语义分析,结合语义分析结果进行分词才能得到更为准确的分词结果,这样的结果对于研究也更具有现实意义。文献[11]基于复杂网络理论对文本关键词进行提取,提出了综合考虑目标词汇以及相邻节点的贡献度来提取关键词的方法。文献[12]通过词序统计组合来提取文本信息关键词,综合使用词序统计、词性标记、停用词过滤等方式提高关键词提取准确性。
在现代社会和企业发展中,人才是最宝贵的资源,很多企业和国家都在强调这一点,甚至出现企业为了得到一个关键人物或团队出手将整家公司收购的极端现象,由此看出现代社会对于有才能人士的重视。同时,人才也是不同国家、不同企业的必争之地。我国提出的“千人计划”、“万人计划”以及现在各个城市都在不断推出的引进人才计划和为留住人才而推出的各种优惠政策都从侧面证明了人才对于社会和企业发展的重要性。文献[13]通过趋势外推法和灰色模型对湖北科技人才需求进行演化预测,文献[14]分析了人才分析对战略人力资源管理的价值,总结了人才分析的主要用途并提出了实施人才分析需要注意的相关问题。本文基于复杂网络和NLPIR(naturallanguageprocessing&informationretrieval)分词系统以百度百科词条信息作为原始数据对几家互联网企业的高管进行研究分析。
1高管复杂网络模型建立
本文使用的高管人员名单来自于以下互联网企业:百度、阿里巴巴、腾讯、滴滴、美团、京东、今日头条;每位高管人员的个人信息均来自于百度百科官方词条。
建模算法设计:
a.由于使用爬虫技术获取到的文本信息不规范,存在格式不统一、包含异常的符号等问题,所以,在获取到文本信息后,根据预先设定的处理规则进行处理。例如,删除多余的空格、换行符号及少部分的不规则网页标签等。经过预处理后原始数据成为姓名与个人百度百科词条一一对应的形式。例如,通过预处理得到以李彦宏为文件名的文本文件。k
b.NLPIR(https://github.com/NLPIR-team/NLPIR)是一套能够将给定文本进行分词并提取实体词(有意义的词汇,如人名、地名、公司名称等)、关键词、敏感词的分词系统。本文使用该分词系统对处理好的文本信息进行实体抽取,获得有意义的实体词汇作为关键词信息。例如,李彦宏对应百度、创始人、董事长、北京大学、华尔街等实体关键词。VpVpVkVkc.通过以上a,b这2个步骤,获得了两类网络节点,一类节点为个人姓名,代表本文网络所使用的高管人员姓名;另一类节点为关键词,代表分词系统实体抽取得到的有意义的实体描述关键词。
通过图3和表1可以看出,根据上述模型所建复杂网络有着与现实世界网络相似的网络参数[15]。例如,网络的平均路径长度为3.641,满足现实世界网络的小世界特性[16],而聚集系数为0.092,相对较大,满足高聚集性,图3为网络的度分布情况,可以看出,网络的度分布与现实世界网络度分布的无标度特点相对应。
2高管网络中心性
描述复杂网络的参数主要包含以下几种:网络密度、度、平均最短路径和网络的聚集系数。其中,网络密度主要刻画了网络连接的总体特征,网络的度主要描述个体节点的连接情况,平均最短路径能够体现网络信息流传递效率,而网络的聚集系数则能够体现网络的局部聚集情况。
分别将度值排名在前25的关键词及关键词对应的度值进行横向对比分析,可以得到柱状图如图5所示。
从图5可以看出,横向对比下北京和美国这2个关键词的度值相比于同类关键词具有明显的优势,两者的度值都远大于同类关键词的度值,其中,美国是同类关键词的5~7倍,北京是同类关键词的3~7倍。通过度值的横向对比可以看出,这些互联网企业的高管和北京、美国相关的背景信息显得尤为重要。这一点也与现实世界的基本情况相符。美国作为自二战以来的世界强国,对于计算机、互联网这类高科技行业在全球范围内都称得上绝对领先,所以,我国大量互联网人才在选择留学、交流时,美国往往是他们的首选,文献[18]中表明,美国仍然是多数人留学的首选目的地。另一方面,虽然我国大型互联网公司在国内发展情况很好,但往往也会在美国硅谷等地设立研发中心等,网络中涉及的7家(百度、阿里、腾讯、滴滴、美团、京东、今日头条)公司中有71.43%的公司在美国有分公司、办事处或研发中心。文献[19]指出,设立海外研发中心具有从东道国获取新信息、新技术服务于母公司的技术开发战略的作用,而这时的东道国主要有两类:一是拥有“技术高地”的技术发达国家,二是拥有“人才富地”的人力资源优质国家,而恰好美国在这两方面都符合。
北京作为我们国家的首都及政治中心,对于任何一个企业而言,北京相对于我国的其他城市有着完全不同的意义,企业管理人员背景信息和北京有着较大的关系也属于合理。另一方面,北京作为一线城市,有着众多优秀的高校和人才,企业和一线城市有着较大的亲密度,这对于属于前沿行业的互联网公司也是必不可少的,网络中涉及的7家企业100%均在北京有分公司、研发中心等。其中,5家公司总部就在北京。文献[20]针对我国互联企业分布进行分析。图6为互联网企业数量前五的省市的统计分析图。可以看出,北京互联网企业数量有明显优势,这也进一步证明了本文所得分析结果的合理性。
2.2特征向量和介数
2.2.1特征向量
AaijaijλAe=(e1,e2,···,eN)Aλ一个节点的度指标仅仅描述了该节点对于其他节点的直接影响力,若一个节点与另一个度值很高的节点之间存在连接[17],则该节点的影响力也会受到影响而增强,这与现实世界中的很多情况是一致的,如果把每个人看作是一个节点的话,一个节点的信息占有率在很大程度上取决于它与什么样的节点有连接。但是,这种类型的特征无法用度值进行衡量,故本文使用特征向量这一网络指标来衡量节点这种特征的显著与否。设网络G的邻接矩阵为,为矩阵第i行第j列的元素,的取值集合为{0,1},为的主特征值,是一个常量,为矩阵对应的特征向量。
3结 论
以复杂网络为理论基础,对几家大型互联网企业高管人员进行建模分析,通过复杂网络的理论分析研究对象是否具有共性、具有哪些共性以及该类人员具有哪些显著特点。以百度百科官方词条作为原始数据,通过分词系统抽取实体关键词,获得有信息要素的实体关键词;以高管姓名和关键词作为网络节点,高管个人信息中是否包含关键词作为连接边的条件构建复杂网络;最后通过复杂网络的理论分析得到一些与现实世界具有一致性的网络特征,同时这些一致性也证明模型的合理性。
分析网络后,得到以下主要结论:首先,将度值较高的美国和北京分别整理统计对比后发现,美国和北京相对于其他同类别的关键词确实有着明显的度值优势,证明对于大型互联网企业高管而言美国和北京相关的背景信息确实很重要;其次,将特征向量指标值和介数指标值归一化后作图对比,发现一个与现实世界具有一致性的特点,一个人社交关系中的社交对象相比于他在社交关系中起到的信息传递的作用更为重要,也让他更容易获得成功;最后,对图9中的异常节点进行分析,发现跨行业跳槽时过去不同的职业经历可能会在未来的个人发展中产生不好的影响。
相关期刊推荐:《上海理工大学学报》是由上海理工大学主办的理工科综合性学术刊物,主要报道系统科学与复杂性科学、能源与动力工程、光电信息与计算机科学、机械材料科学、生物医学科学、传媒出版科学以及基础学科(数学、物理、化学)等方面的学术研究和科研实践成果。
* 稍后学术顾问联系您