摘 要电信诈骗给社会带来巨大利益损失,运营商需要从网络侧研究如何有效地进行反诈工作,而反诈工作的核心任务是发现网络中伪造身份的通信行为。本文提出了一套通用的反诈流程,能够有效发现网络中存在的伪造身份通信行为,针对流程中的每一个环节,介绍了相关技术手段和算法。最后,本文介绍了如何结合多种技术手段发现网络中的诈骗事件。
关键词反电信诈骗;机器学习;数据挖掘
电信诈骗极大损害用户利益,给运营商带来了声誉损失。运营商如何利用技术手段进行反诈一直以来都是研究重点。起初电信诈骗特征并不复杂,通过一些简单的行为分析与内容检测就可以达到不错的反诈效果。随着诈骗分子与反诈人员技术对抗不断升级,电信诈骗在网络侧的行踪已经越来越隐蔽。具体表现在诈骗分子开始进行精准诈骗,针对不同用户群量身定制诈骗脚本;诈骗分子同时用多个号码实施诈骗,避免反诈行为分析;诈骗分子采用多种渠道实施诈骗,运营商无法获得完整诈骗剧本。在新的反诈形势下,为了能够有效发现网络中发生的电信诈骗事件,需要对新的反诈技术手段进行研究。
1电信诈骗的本质
电信诈骗的本质是通过伪装身份来骗取对方的信任从而牟取不法利益。由此可以看出,发现电信诈骗最根本手段是发现通信者是否在伪造自己的身份进行通信。比如消息发送者声称自己是10086的客服,但如果可以通过技术手段发现其不是,则该消息发送者较大概率是电信诈骗分子。诈骗分子的诈骗手段总是不断翻新,但这一本质特征是永久不变的。所以,如何通过技术手段发现诈骗分子的伪装身份是反电信诈骗的核心工作。
2反电信诈骗的优劣势分析
电信诈骗分子能够让受害者受骗,证明其传递的信息从语义上很难辨识真伪。但运营商具有受害者所没有的全网视角,可以全面分析诈骗号码与不同受害者的通信行为,这是运营商反诈的有力条件。
相比于互联网即时消息公司的反诈条件,运营商存在如下不利条件。
(1)互联网即时消息服务通常是一个熟人网络,用户必须彼此添加好友后才可以进行通信。而电信运营商的网络是一个陌生人网络,任何人可以在得知对方手机号码的情况下与对方进行通信。这无疑降低了诈骗分子联系到受害者的门槛。
(2)互联网即时消息服务安装在用户终端处,消息既可以在网络侧拦截,也可以在终端侧拦截。在终端侧拦截的好处是用户可以恢复误拦截的消息。另外,在终端侧可以结合更多用户信息(如手机通讯录)进行反诈。而运营商唯一的治理手段是在网络侧拦截,存在误拦截风险,且用户感知度差。
(3)互联网即时消息服务会留存用户一段时间内的全量消息记录,包括文字、图片和语音消息等,反诈数据基础比较完备。运营商则默认不保存用户正常通信内容,仅保留用户的通信行为数据。此外,运营商仅会对网络中传播的不良信息(垃圾短信、垃圾彩信、骚扰电话语音和违规图片信息等)进行实时监控并保存留证,其规模远远小于全量的通信内容。
综上所述,电信网是陌生人网络,无法直接获得熟人关系。运营商只能进行网络侧治理,要结合多方数据进行精准判定才能进行实施消息拦截。运营商反诈数据基础不足,需要最大化利用现有信息与外部安全厂商实现数据共享。
3反诈技术框架
如图1所示,整个电信诈骗流程可分为数据源选择、无关数据过滤、诈骗脚本粗筛、身份属性挖掘、身份属性检查和诈骗分析识别几个阶段。
3.1数据源选择
反诈的第一步是要选择好数据源。数据源包含内部数据源和外部数据源。其中内部数据源可以有很多种,比如垃圾短信数据、垃圾彩信数据、骚扰电话数据和电话话单等。外部数据源包括外部公司或组织共享的投诉举报数据、号码标记数据和外部提供的其它安全服务能力等。
数据源的选择一般遵循两个标准。第一,数据源便于身份属性挖掘。比如在国际诈骗电话数据中,诈骗分子通常会将号码改成公安局的号码来实施公检法类的诈骗。所以国际诈骗电话中的主叫号码信息就体现了诈骗分子身份属性。又如诈骗分子发送的消息、语音类数据中往往会包含姓名、手机号和网站等身份属性信息。第二,数据源便于检查身份属性。比如通过分析用户之间的通信行为可推断二者是否为熟人关系,通过安全公司共享的号码标记数据可检查手机号码是否为诈骗电话等。
3.2无关数据过滤技术
在数据源确定以后,可以对数据源中的数据进行预处理。预处理主要是对无关数据进行过滤。方法大体可以分为对结构化数据(如通话话单)过滤和对非结构化数据(如短消息)过滤。结构化数据过滤主要是筛选或限定字段的取值,非结构化数据过滤主要依靠人工智能分类模型进行处理。比较常用的有朴素贝叶斯分类、卷积神经网络分类和循环神经网络分类。
3.3诈骗脚本粗筛
诈骗分子通过各种黑、灰产业购买潜在受害者隐私信息,并将潜在受害者分类,编制不同的诈骗脚本。诈骗分子在与同类潜在受害者接触时,会使用相同的脚本。因此网络上会产生大量内容相似的通信数据。如相似措辞的短消息数据、相似开场白的语音数据和相似内容的图片数据等。故对过滤后的数据进行相似内容聚类可粗略定位网络中的诈骗脚本。
随着大量深度学习预训练模型的涌现,将任意类型的信息特征化为特征向量变得容易实现。如word2vec和bert等模型可将任意词语或短消息转为特征向量;vgg16和resnet50等模型可将任意图片转为特征向量;lstm和transformer可将任意语音转为特征向量。将信息向量化后就可以方便地使用K-means等聚类算法对信息进行聚类。在数据聚类完成后,就可以以聚类为单位,按聚类的大小降序分析每个聚类中的信息内容,挖掘聚类中的身份属性信息。
3.4身份属性挖掘
伪造身份信息是诈骗脚本的核心,所有的诈骗套路都是围绕伪造身份展开的。诈骗分子会使用各种伪造身份取信于受害者。同时,诈骗分子通常会准确地说出受害者的姓名和身份证号等隐私信息来强化自身身份。因此,身份属性信息在诈骗消息中是无法避开的内容。可以通过分析聚类中是否包含身份属性信息来进一步定位潜在的诈骗信息聚类。
最常见身份属性信息就是姓名、地名、组织机构名、手机号、QQ号和微信号等。所有这些信息在自然语言处理领域统称为命名实体。从自然语言中提取出这些信息的任务称为命名实体识别。目前命名实体识别技术仅适用于文本类数据。针对语音类信息,可以首先将语音转化为文本后再进行处理。针对包含文字较多的图片类信息,可以考虑使用光学字符识别(OCR)功能将图片转文本后进行处理。
对于一些遵循特定格式要求的命名实体(如手机号、网址和邮箱等)可以使用正则表达式实现精确提取。对于其它命名实体,需要使用命名实体识别算法进行抽取。命名实体识别算法有很多,比较著名的是CRF模型和深度神经网络模型。
3.5身份属性检查
在提取出身份属性信息后,需要对提取出的身份属性信息进行检查,以确定身份属性是否是已知具有诈骗性质的属性。比如号码是否为已知诈骗号码,网址是否是钓鱼网站。属性检查方法可以利用内部数据自行检查,也可借助外部安全服务进行检查。在利用内部数据的检查手段中,针对手机号码检查,本文介绍两种检查方法,一种是检查号码通信双方是否为熟人关系,另一种是通过号码的行为判断是否具有诈骗电话特征。针对网址类属性检查,本文重点介绍钓鱼网站识别技术。
3.5.1熟人关系挖掘技术
通过信息内容来判定信息的发送者与接收者是否为熟人存在技术困难。一些诈骗分子会冒充熟人身份进行诈骗,比如在诈骗语音中说“猜猜我是谁”。又比如在短消息中说自己是领导。随着深度伪造技术的应用,诈骗分子甚至可以生成任何人的语音和人脸信息,从而快速得到受害者信任。
电信网是一个陌生人网络,运营商无法直接获取到网络中存在的熟人关系网,必须通过算法挖掘才能够实现。一种能够获取熟人关系的方法是分析通信双方的话单记录。当通信双方在较长的时间内形成了比较稳定的呼叫关系,则可以认为双方是熟人关系。熟人关系是具有方向性的。即当号码A呼叫号码B比较稳定时,则熟人关系将从号码A指向号码B。按照如上思路分析全网所有通信记录得到描述全网熟人关系的有向图。网络中每个节点代表一个手机号码,每条边代表一个熟人关系,边的方向代表呼叫的方向。可以通过pagerank方法对这个有向图中每个节点的权重进行打分。
如图2所示,给定任意号码X,可以找到其指向的节点A、B、C,在其中选择打分最高的节点A作为第一熟人关系圈中心,则所有指向节点A的节点构成了X的第一熟人关系圈(所有紫色节点)。同理可以得到X所在的第二熟人关系圈(所有蓝色节点)。这些关系圈可以用来检查任意号码是否在指定号码的熟人关系圈中,进而辅助系统分析号码是否是冒充熟人号码。
3.5.2诈骗行为分析技术
一些诈骗电话在行为上符合骚扰电话的特征。即呼叫频次较高、平均通话时长较短、号码被挂断次数较高、不同被叫较多等。可定期对一段时间的话单记录中的每个主叫号码计算如上行为统计指标,并通过机器学习方法(如使用决策树、随机森林或梯度提升机等)对诈骗电话与正常电话的差异进行研究。
诈骗行为分析仅能以较粗的粒度筛选出潜在的诈骗电话。因为一些电话与诈骗电话行为非常接近,比如快递和送餐类电话呼叫频次、不同被叫数量等指标与诈骗电话类似。因此,诈骗电话行为分析的结果需要结合其它手段进行更精确的识别。
3.5.3钓鱼网站识别技术
运营商可以使用技术手段对提取的网站类身份属性信息进行钓鱼网站检测。如图3所示,钓鱼网站的检测可划分为域名角度和网站内容角度。
从域名角度检测是检查网站域名是否和知名网站域名相似。比如诈骗分子通常会使用10086c.org等与10086.cn类似的域名作为模仿中国移动官网的钓鱼网站。域名比较方法可以使用编辑距离或最长公共子序列等。为了规避域名分析,诈骗分子通常使用短链接服务隐藏域名。直接对短链接域名进行分析没有意义。需要将短链接还原后再进行钓鱼域名检测。
本文来源于:《电信工程技术与标准化》本刊宣传信息产业的方针、政策,报道电信工程建设和网络运行方面的成就与发展趋势;介绍新的通信理论和技术知识,技术标准规范。交流科研、设计、规划、施工维护方面的技术与经验,突出实用性、指导性。为海内外信息工程建设和网络运行部门提供技术支撑与标准服务。
从图3中可看出,网页内容角度检测可从4个方面入手。
(1)需要检查网站中引用的图片元素,尤其是logo是不是已知知名网站的logo。
(2)检查网页文字内容是否与知名网站相似。
(3)检查网页中是否存在提示用户输入敏感信息的表单元素。
(4)检查网页源代码是否经过加密,如使用类似凯撒加密方法进行加密,并使用javascript在客户端运行时进行解密。
3.5.4借助外部安全服务
针对号码类属性信息,运营商可以利用自身和外部提供的垃圾信息举报平台和反诈平台获取用户举报数据,帮助发现诈骗分子的手机号。但更多情况下,用户更喜欢使用终端安全软件来标记接收到的诈骗电话或举报垃圾信息,因此可以考虑与终端安全厂商进行合作,共享号码标记数据,从而提高反诈的治理精准度。
针对网址类属性信息,运营商可以考虑使用安全厂商提供的钓鱼网站检测功能,对信息中包含的钓鱼网站进行识别,从而发现诈骗分子。类似来确定合法网站的手段还有域名备案网站和域名流量排名网站等。
3.6诈骗分析识别
在完成了数据聚类和身份属性提取后,结合属性检查能力,可采用多种方法发现网络中的诈骗事件。本文列出了比较常用的4种手段。
(1)直接借助外部服务发现诈骗号码。比如跟踪被安全公司标记为诈骗电话的号码在网络中发送的信息或拨打的电话,在取证无误后就可以对号码进行处理。另外,可以使用安全公司的钓鱼网站识别服务检查垃圾信息中附带的链接信息,若出现钓鱼网站,且发送量较大,则则发送信息的号码可判定为诈骗号码。
(2)使用身份属性之间的矛盾来发现诈骗号码。诈骗分子在同时联系多个受害者实施诈骗时,会出现身份属性自相矛盾的情况。比如在相同诈骗脚本中,同一个手机号码给多个不同的手机号发送冒充子女类短信,明显不符合逻辑。又比如在相同诈骗脚本中,同一个手机号码声称自己的姓名不一致,甚至出现数十个不同的名字,也属于身份属性自相矛盾。
(3)结合身份属性与熟人关系圈发现诈骗号码。当手机号码的通信行为同时影响到多个不同的熟人关系圈,且这些熟人关系圈在之前彼此没有交集时,则这个手机号码很可能是诈骗号码。
(4)结合行为分析与外部服务发现诈骗号码。单纯依靠行为分析很难确定号码是否是诈骗号码。可以用安全公司提供的标记信息从疑似诈骗号码中踢除非诈骗电话号码(快递和网约车等),从而大幅提升识别精确度,减少对疑似号码的人工拨测验证工作量。——论文作者:杜刚,朱艳云,张晨,杜雪涛
* 稍后学术顾问联系您