医学知识图谱构建技术与研究进展-期刊天空网手机端

　　摘要: 现有知识图谱构建技术在医学领域中普遍存在效率低、限制多、拓展性差等问题。针对医疗数据跨语种、专业性强、结构复杂等特点，对构建医学知识图谱的关键技术进行了自底向上的全面解析，涵盖了医学知识表示、抽取、融合和推理以及质量评估五部分内容; 此外，还介绍了医学知识图谱在信息检索、知识问答、智能诊断等医疗服务中的应用现状。最后，结合当前医学知识图谱构建技术面临的重大挑战和关键问题，对其发展前景进行了展望。

医学知识图谱构建技术与研究进展

　　关键词: 知识图谱; 知识获取; 知识融合; 知识推理; 自然语言处理

　　自 1998 年万维网之父 Berners-Lee 提出语义网，人们不断在网络等电子载体上表达和修正对客观世界的理解，形成了一个概念标准化的过程;同时随着链接开放数据( linked open data)的规模激增，互联网上散落了越来越多的知识元数据。知识图谱就是在这样的大数据背景下产生的一种知识表示和管理的方式，强调语义检索能力。近年来，在人工智能的蓬勃发展下，知识图谱涉及到的知识抽取、表示、融合、推理、问答等关键问题得到一定程度的解决和突破，知识图谱成为知识服务领域的一个新热点，受到国内外学者和工业界广泛关注。

　　知识图谱的前身是语义网，它吸收了语义网、本体在知识组织和表达方面的理念，使得知识更易于在计算机之间和计算机与人之间交换、流通和加工。具体来说，一个知识图谱由模式图、数据图及两者之间的关系组成，模式图对人类知识领域的概念层面进行描述，强调概念及概念关系的形式化表达，模式图中节点是概念实体，边是概念间的语义关系，如 part-of;数据图对物理世界层面进行描述，强调一系列客观事实，数据图中的节点有模式图中的概念实体和描述性字符串两类，数据图中的边是具体事实的语义描述;模式图和数据图之间的关系是指数据图的实例与模式图的概念之间的对应，或者说模式图是数据图的模具。著名的通用知识图谱中有谷歌的 Knowledge Graph [1]、搜狗知立方 ( https: / /www. sogou. com/)、YAGO[2]、 DBpedia [3]等，它们具有规模大、领域宽、包含大量常识等特点。目前，医学是知识图谱应用最广的垂直领域之一，如上海曙光医院构建的中医药知识图谱[4]、本体医疗知识库 SNOMED-CT (http: / /www. snomed. org /)、IBM Watson Health ( http: / /www- 935. ibm. com/industries/hea lthcare /index. html) 等应用近两年也开始进入人们视线。

　　知识图谱是智能大数据的前沿研究问题，它以独有的技术优势顺应了信息化时代的发展，比如渐增式的数据模式设计，良好的数据集成，现有 RDF、OWL 等标准支持，语义搜索和知识推理能力等。在医学领域，随着区域卫生信息化及医疗信息系统的发展，积累了海量的医学数据，如何从这些数据中提炼信息并加以管理、共享及应用，是推进医学智能化的关键问题，是医学知识检索、临床诊断、医疗质量管理、电子病历及健康档案智能化处理的基础。

　　1 医学知识图谱构建

　　本文将医学知识图谱构建技术归纳为五部分，即医学知识的表示、抽取、融合、推理以及质量评估。通过从大量的结构化或非结构化的医学数据中提取出实体、关系、属性等知识图谱的组成元素，选择合理高效的方式存入知识库。医学知识融合对医学知识库内容进行消歧和链接，增强知识库内部的逻辑性和表达能力，并通过人工或自动的方式为医学知识图谱更新旧知识或补充新知识;借助知识推理，推断出缺失事实，自动完成疾病诊断与治疗;质量评估则是保障数据的重要手段，提高医学知识图谱的可信度和准确度。

　　1. 1 医学知识表示知识表示

　　是为描述世界所做的一组约定，是知识符号化、形式化、模式化的过程[5]，主要研究计算机存储知识的方法，其表示方式影响系统的知识获取、存储及运用的效率。然而医学数据种类繁杂、存储方式不一、电子病历格式和标准不同、经常涉及交叉领域等特点，导致医学领域与其他领域在知识表示方面有所差异，同时也给医学领域的知识表示带来极大的挑战。

　　早期医疗知识库运用的知识表示方法有谓词逻辑表示法、产生式表示法、框架表示法、语义网表示法等，比如 SNOMEDCT、早期的 MYCIN 系统[6]、大肠杆菌数据库 EcoCyc [7]等。随着知识图谱中知识增长、关系复杂化，这些方法由于表示能力有限且缺乏灵活性，不再作为主要的知识表示方法，更多是作为医学知识表示的辅助或补充。

　　本体表示法以网络的形式表示知识，即以(实体 1，关系，实体 2)三元组来表示相关联的两个节点(实体)，在知识图谱提出之后逐渐得到认可。它借鉴了语义网表示法但又有所区别，本体关注的是实体固有特征，比后者更聚焦、更深入，因而也具有更大的发展潜力。而本体的描述语言也多种多样，主要有 RDF 和 RDF-S、DAML、OWL 等。使用本体表示医学术语可以提升数据整合能力，建立强大、可互操作的医疗信息系统;满足重用共享传输医疗数据的需求;提供基于不同语义标准的统计聚合。医学领域本体的构建需要深入分析医学术语的结构和概念，才能将晦涩甚至是跨语言的医学知识有效地表达出来。目前的医学知识本体库有医学概念知识库 LinkBase [8]、 TAMBIS 本体库 (TaO) [9]等。

　　知识图谱的节点个数影响着网络的结构复杂度及推理的效率和难度。知识表示学习借助机器学习，将研究对象的语义信息表示为稠密低维向量，有效解决数据稀疏问题，从而提升知识融合和推理性能[10]。低维向量表示是一种分布式表示 (distributed representation) [11]，它模仿人脑中使用多个神经元存储对象的工作机制，使用多维度向量表示对象的语义信息。

　　知识表示学习中的代表模型有结构化表示法( structure embedding，SE) [12]、单层神经网络模型 ( single layer model， SLM) [13]、隐变量模型 ( latent factor model，LFM) [14]、基于 TransE[15]的翻译模型等。这些模型考虑实体间的协同性和计算开销，用向量表示实体，再对表示实体的向量或关系进行相应的矩阵变换，提出评价函数来衡量实体间的相关性，并为之后的知识补全和推理提供重要参考。Kleyko 等人[16]证明了分布式表示方法表示医学图像进行分类，精度能够与最佳经典方法相同;Henriksson 等人[17] 对比使用多种知识表示方法表示 EHR 中四类记录:诊断记录、药物使用记录、治疗方法和病程记录。显然，知识表示学习无疑为医学知识图谱的知识表示开辟了新思路。

　　1. 2 医学知识抽取

　　医学知识图谱的构建主要是从非结构化数据中人工或自动地提取实体、关系和属性。人工提取是通过专家依据一定规则收集并整理相关信息提取知识，目前通过人工构建的医学知识库包括临床医学知识库[18]、SNOMED-CT、ICD-10 等;自动提取则是利用机器学习、人工智能、数据挖掘等信息抽取技术，从数据源中自动提取出知识图谱的基本组成元素，自动构建医学知识库的典型例子有一体化医学语言系统 UMLS [19]。人工提取的代价太大，知识的自动提取是目前重点的研究方向，也是将来构建知识图谱的趋势。本节主要介绍如何自动从数据源中抽取知识和信息，包括实体、关系和属性抽取。

　　1. 2. 1 实体抽取

　　识别文本中的生物医学实体，其目的在于通过识别关键概念进一步提取关系和其他信息，并将识别的概念以标准化的形式表示出来。医学领域的实体抽取是从医学数据源中提取出特定类型的命名实体，将医学实体的抽取方法归纳为三类。

　　1)基于医学词典及规则的方法

　　该方法通过人工定义规则和模式匹配生成词典或使用现有医学词典从语料中抽取医学实体，它是具有挑战性的。首先，目前没有完整的字典囊括所有类型的生物命名实体，所以简单的文本匹配算法是不足以应对实体识别的;其次，相同的单词或短语其意义可根据上下文的改变而指代不同的物体 (如铁蛋白可以是生物物质或实验室测试方法);再次，许多生物或药物实体同时拥有多个名称(如 PTEN 和 MMAC1 指代相同的基因)。因此，基于医学词典及规则只在最早期被广泛使用。Friedman 等人[20]通过自定义语义模式和语法来识别电子病历中的医学信息。Wu 等人[21]使用了 CHV[22]和 SNOMEDCT 两个医学词典得到了不错的实验结果，虽然该方法能达到很高的准确度，但无法彻底解决上述问题，也过分依赖专家编写的词典和规则，无法适应医学领域词汇不断涌现的现实情况。

　　2)基于医学数据源和数学模型的机器学习方法

　　该方法通过使用统计学和机器学习方法，结合医学数据源的特点训练模型，进行实体识别。在英文医学实体抽取方面，最具代表性的标注语料是 i2b2 2010 [23] 发布的英文电子病历标注语料，另外还有 SemEval( http: / /www. senseval. org /)、NTCIR( http: / /research. nii. ac. jp /ntcir) 等评测，以及 NCBI [24] 语料库等，都提供了英文医学实体标注数据。

　　目前常用方法有隐马尔可夫模型(HMM)、条件随机场模型(CRF)、支持向量机模型( SVM) 等。Kazama 等人[25] 使用 SVM 模型进行生物医学命名实体识别，引入了 POS、词缓存、无监督训练得到的 HMM 状态等特征，该方法在 GENIA 语料库中准确率高于最大熵标记方法，并能较高效地应用于大规模语料集。Zhou 等人[26]通过一系列特征训练 HMM 模型，包括词的构成特征、形态特征、POS、语义触发、文献内名称别名等，其识别准确率达 66. 5% ，在 GENIA 语料库中的召回率达 66. 6% 。综合以上方法，Chen 等人[27]利用 MedLEE 系统来识别与生物医学文本中与表型信息相对应的短语，该系统使用自然语言技术来识别期刊文章摘要中存在的表型短语。生物医学的实体识别常常可使用较小的表型相关术语的知识库。文献[28]自动导入与语义类别相关的数千个 UMLS 术语，如细胞体功能和细胞功能障碍以及哺乳动物本体中的几百个术语，并手动添加了几百个术语，实验结果表明，其实体识别准确率达 64. 0% ，召回率达 77. 1% 。虽然结果不高，但为之后的研究人员提供了一条可行的思路。

　　在医学领域，命名实体识别的痛点在于数据质量的良莠不齐以及人工标注的专业性要求高。目前有专门针对如何降低对于数据标注依赖的研究，其原理主要是利用海量未标注数据持续提升模型性能，从小样本中进行学习，自我探索逐步学习新知识，形成一个交互学习过程。

　　3)深度学习方法

　　深度学习近年来开始被广泛应用于命名实体识别，最具代表性的模型是 2011 年 Collobert 等人[29]提出的一个深层神经网络模型，其效果和性能超过了传统算法。Sahu 等人[30]所提出的 CNN 与 RNN 级联的方法生成词嵌入特征，其结果优于目前最好的算法且不需要过多的特征工程。

　　在医学领域，Wei 等人[31] 基于 CRF 和双向 RNN 生成特征，再使用 SVM 进行疾病命名实体识别。目前医学信息命名实体识别任务中最主流的深度学习模型是 BiLSTM-CRF 模型， Jagannatha 等人[32] 对比了 CRF、BiLSTM、BiLSTM-CRF 三种模型以及一些它们的改进模型在英文电子病历命名实体识别的效果，实验结果表明所有基于 LSTM 的模型都比 CRF 效果更好，并且 BiLSTM 结合 CRF 模型能够进一步提高评测结果 2% ～ 5% 的准确率。

　　1. 2. 2 实体抽取

　　本文将医学实体关系抽取归结为两类:同类型医学实体层级关系抽取，如疾病的肠胃病—慢性胃炎等;不同类型关系抽取，如疾病—症状等。

　　1)同类型医学实体层级关系抽取

　　同类型医学实体层级关系相对较为单一，主要是 is-a 和part-of 关系。由于医学有其严谨的学科体系和行业规范，此类关系往往在医学词典、百科、信息标准中进行。

　　ICD-10 [33]、SNOMED 等医疗词典或医疗数据库重点关注医学专业术语、受限词汇的分类和概念标准化工作，权威且涵盖范围广，在数量和质量上都有所保障，被医疗行业广泛认可，是抽取层级间实体关系的首选来源。针对具体的医疗词典、知识库提供的数据格式和开放 API 接口，可通过爬虫、正则表达式、D2R 映射等技术从中抽取分层结构，抽取三元组来匹配、添加上下位关系。

　　2)不同类型医学实体关系抽取

　　不同类型医学实体间的语义关系识别大致基于两大不同数据源而实现，一是百科或其他结构化数据源，如 MEDLINE、 UMLS 等;二是半结构化的电子病历。医学实体类型相对有限 (主要是疾病、症状、治疗、药品等)，目前通常在两个实体间预定义好要抽取的关系类型，再将抽取任务转换为分类问题来处理。如何预定义实体关系目前尚未有统一的标准，这取决于医学知识图谱构建过程中模式图的设置、实体识别情况、语料来源、构建目的及应用场景等，如在 i2b2 2010 评测中，将电子病历中的实体关系分成了医疗问题与医疗问题、医疗问题与治疗、医疗问题与检查三类。

　　Uzuner 等人[34]在句子层面抽取了六类医疗实体关系，使用实体顺序和距离、链接语法和词汇特征来训练六个 SVM 分类器，通过对比实验，指出词汇特征在实体关系识别中的重要作用。在此基础上，基于 MEDLINE 摘要，Frunza 等人[35] 抽取了疾病、治疗间的三种关系，并引入 UMLS 生物和医疗实体特征，取得了不错的实验结果。而 Abacha 等人[36]在同样的任务中使用人工模板和 SVM 的混合模型，取得了 94. 07% 的平均 F 值。该研究指出，在样本数较少时，模板匹配方法起主要作用，而面向海量样本时则 SVM 起主要作用。

　　此外，在关系识别的分类方法对比研究中，De Bruijn 等人[37]在 i2b2 2010 评测中对比研究了有监督分类和基于 selftraining 的半监督分类的表现，表明 UMLS、依存句法分析结果和未标记数据对关系识别有着显著影响。除了预定义关系然后转换为分类任务来处理的方法，还有少量研究采用了模板匹配、统计共现等方法来抽取关系，如在 MEDLINE 摘要中通过统计基因名的共现来提取关系，并根据共现矩阵生成了关系图[38]，或在 MEDLINE 摘要中通过语法依赖树进行图的模式匹配，进而抽取因果关系[39]。

　　医学相关知识推荐阅读：医疗技术方面论文有哪些征稿期刊

　　从事医学领域工作的技术人员，无论是研究项目还是晋升职称都会要求发表论文的，而且这一领域比其他行业要求更为严格，为此很多想要发表医疗技术论文的作者，对于期刊的选择了解的并不多，哪类期刊能征收这方面的论文，大家是比较困惑的，为此，小编在这里给大家推荐了几本合适的刊物，希望对于需要发表论文的作者提供帮助。