基于短语级情感分析的不良信息检测方法-期刊天空网手机端

　　摘要：针对基于关键词字符匹配和粗粒度情感分析方法的传统不良信息检测方法准确率低的问题，提出一种基于短语级情感分析的不良信息检测方法.该方法制定语法规则来提取敏感词所在短语，结合二次分类的情感词典，通过分析短语的情感倾向来判断表达者对敏感关键词的情感倾向，从而判定内容的敏感性.本文方法克服了字符串匹配方法的缺点，如：传统的字符串匹配方法忽视敏感词上下文，从而导致大量误报的缺点，及粗粒度情感分析方法由于无法准确定位情感对象，只能以文本整体情感倾向代表表达者主观情感，导致不能精准分析与敏感词相关的情感倾向及敏感性.实验表明，本文方法与传统方法相比，准确率有较大的提升.

基于短语级情感分析的不良信息检测方法

　　关键词：不良信息;语法规则;短语提取;情感词典;情感分析

　　1引言.

　　我国网民数量众多，互联网环境复杂，存在少部分人员利用网络传播暴力、反动、色情及邪教等不良信息，如何检出这些信息是一个重要问题.当前，对不良信息的检测研究主要集中在对敏感词的检测上，即基于敏感词库，如何高效、准确地检出敏感词本身或其变体形式.目前广泛采用的方法是基于字符串匹配通过建立敏感词库，对待检测文本进行检索，若其中含有敏感词，则标记为不良信息.这种方法实现简单，但仅能识别敏感词库中的词.对此，文献[1]提出一种基于决策树的过滤算法，该算法通过将敏感词按照拼音首字母分类，最终形成一个前缀树结构的决策树，将待检测文本视作信息流，查找决策树，最终输出文本中所含敏感词.文献[2]提出了一种识别敏感词变形体的方法，该方法结合了汉字的发音结构与特征，能够识别出中文敏感词的拼音、简称和拆分三种变形体形式.文献[1-2]的方法拓展了检测的范围，可以识别敏感词的部分变形形式，但由于仍是基于字符串匹配，检出对象都为“词”，缺少上下文信息的考虑，因此准确率较低.

　　相关期刊推荐：《四川大学学报(自然科学版)》(双月刊)曾用刊名：四川联合大学学报(自然科学版)，1955年创刊，是自然科学综合性学术期刊，国内外公开发行，主要刊登四川大学理科基础研究和应用研究方面的、具有创造性价值的研究论文、快报和综合评述，包括数学，物理学，化学和生物学等基础学科以及无线电电子学，计算机科学，核科学与技术，生物工程，光电技术及材料科学等新兴学科和高新技术学科的内容。

　　为了将文本上下文纳入考虑，文献[3]使用情感分析来识别微博中的敏感信息.作者对微博的情感极性进行了度量，通过计算文本情感得分将文本情感倾向分为正向情感和负向情感两类，通过分析发现负向情感的微博内容具有较高的敏感性，由此建立了含有情感极性因素的敏感度模型，通过情感倾向计算敏感度，使用敏感度来判别微博的敏感性.文献[4]提出了一种Laplace平滑情感判定算法，通过细化文本语义分析规则计算文本情感值.文献[5]通过结合情感词典和卡方模型，将情感词的情感极性值与句中的否定词纳入考虑，提升了判定的准确率.以上通过计算文本情感得分或极性值来判断文本情感倾向方法的问题在于一段文本通常包含多个情感词语，这些情感词所修饰的对象互不相同，因此整段文本所展现的整体情感不一定代表表达者对敏感词的情感倾向，以文本为粒度进行的情感分析得出的情感倾向十分笼统，因此无法制定通用的告警策略，导致其准确率仍然较低.如：

　　例句1)支持法轮功学员研习法轮功;

　　例句2)谴责公安机关迫害法轮功.

　　在以上两个例句中，敏感词都为“法轮功”，从“支持”和“迫害”可以看出表达者对其情感倾向是正面的.但如果采用文献[3]和文献[4]的方句法，例句1)的输出将是正面情感，例句2)的输出将是负面情感，然而两句包含的内容显然都应属于不良信息.粗粒度情感分析不能正确地提取表达者对“法轮功”的情感倾向，因此需要细化情感分析的粒度.细粒度情感分析的关键是对评论对象及其对应情感词进行识别[6].例如，在例句2)中，如果能提取出“迫害法轮功”，就可以仅对这一短语进行情感分析，从而得出表达者对“法轮功”的情感.目前广泛使用的从文本中提取短语的统计方法是PMI(pointwisemutualinformation，点互信息)[7]。

　　基于上述问题，本文提出一种基于短语级情感分析的不良信息检测方法，该方法考虑了敏感词上下文信息，在基于词典的情感分析方法的基础上，将情感词典细分为主体正向、主体负向、受体正向、受体负向、褒义词和贬义词6类而不仅是正面情感和负面情感两类，同时将敏感词按照其性质归为正向敏感词、负向敏感词和超级敏感词三类，使用一种基于语法规则的短语提取策略，通过提取敏感词所在短语，分析其情感倾向，结合敏感词的归类作出告警决策.该方法将分析的粒度由文本细化到包含敏感词的上下文短语，检出对象由“敏感词”扩展到“不良信息”，有效地提高了准确率.最后通过在真实数据上的实验验证了该方法的正确性.

　　2基于短语级情感分析的不良信息检测

　　在情感分析中，“情感”的概念被认为是表达者的主观观点、态度和情绪等，所以情感分析也被成为观点挖掘、评价抽取和主观分析[9].按照分析粒度的不同，情感分析可分为粗粒度情感分析和细粒度情感分析，粗粒度情感分析只能判断文本的整体情感倾向，对于某产品来说，产品评论文本的整体情感倾向并不一定能和产品各个属性的情感倾向保持一致[10].本文使用的短语级情感分析属于细粒度情感分析，目的是分析表达者对某敏感词的主观情感，而不是表达者的整体情感倾向.

　　由于PMI方法不适用于小规模文档，本文提出一种基于语法规则的短语提取策略来提取短语，并与二次分类后的情感词典结合，提出一种短语级情感分析的方法.方法总体流程如图1.

　　目前广泛使用的情感词典有知网情感词典、台湾大学情感词典等.这类情感词典仅简单地将情感词分为正面情感、负面情感两类，但在中文中，同一个词表达的情感可能因其使用方式不同而不同.如“迫害”一词，在情感词典中属于负面情感，但在句子“A迫害B”中，表达者对A的主观情感是负面的，而对B的主观情感是正面的(包含一种同情的感情)，因此不能简单地将“迫害”分为负面情感词，而应视实际情况分类.对此，本文将情感词典进行了二次分类，进一步细化了情感词的情感倾向，然后使用二次分类后的情感词典，制定了语法规则集用于提取短语，同时将敏感词按照其性质归类.在检测阶段，首先进行文本预处理，将文本按标点符号分句后，对每个短句进行分词、去除停用词处理.然后对每个词进行标注，标明该词属于情感词，敏感词，还是其他词.若属于情感词，同时标注其所属类别.接下来逐一对分词后的短句进行短语级情感分析，使用语法规则提取敏感词所在短语并输出其情感倾向，最后结合敏感词所归类别进行告警决策.

　　3情感词典的二次分类

　　本文使用的情感词典衍生自知网情感词典和台湾大学情感词典，将两个情感词典合并、去重后，从结果中人工挑选出具有明显情感倾向的词语，将其二次分类为6大类：主体正向、主体负向、受体正向、受体负向、褒义和贬义.前四类主要包含动词，后两类主要包含形容词，“主体”、“客体”泛指动词的主语和宾语，“正向”、“负向”表示该词的情感倾向，如“主体正向”代表该词对主体的情感是正面的.其中.(1)主体正向(负向)类包括动作的主语一般为正面(反面)形象的词语，或表达者对动作的主语带有明显正面(负面)情感的词语;(2)受体正向(负向)类包括动作一般表达了对宾语正面(负面)情感的词语，或表达者对动作的宾语带有明显正面(负面)情感的词语;(3)褒义、贬义分别包含褒义词和贬义词.

　　分类后得到的情感词典数量如表1和表2列出了部分例词.除褒义、贬义外，其余四类所包含的词语允许交叉，如“迫害”、“歼灭”二词都属于两个不同的类别.

　　4短语级情感分析

　　4.1基于语法规则的短语提取

　　在二次分类情感词典的基础上，可以根据其中的情感词类别组合出人们习惯使用的表达不同情感的词语搭配.如在例句2)中，“迫害”一词属于受体正向类，“法轮功”是其受体且为待检测敏感词对象，则二者可以组成“受体正向+敏感词”短语，该短语明显地表达了对敏感词的情感倾向.

　　结论

　　针对使用字符串匹配方法和粗粒度情感分析方法来检测不良信息时出现的准确率低的问题，本文综合考虑了敏感词与其所在上下文表现的情感极性，提出了一种基于语法规则的短语级细粒度情感分析方法，结合二次分类的情感词典判定短语情感倾向进行告警决策.实验表明，本文方法在准确率上较传统方法有较大的提升.

　　从实验结果来看，该方法的召回率和准确率依赖于情感词典与语法规则的完整性.本文使用的情感词典数量偏少，还应进行扩充;目前的规则集由经验产生，由于中文语法的多样性，该规则集不能完全覆盖所有句型，在以后的工作中将持续更新规则集提高其覆盖率.