摘要:目的探索有效区分月经血和外周血的miRNA最优标记组合及最佳分类模型,并构建简便快速的自动化判别软件。方法对10种miRNA(miR-451a、miR-205-5p、miR-203a-3p、miR-214-3p、miR-144-3p、miR-144-5p、miR-654-5p、miR-888-5p、miR-891a-5p、miR-124-3p)在200余份月经血和外周血样本中的相对表达量以实时荧光定量PCR检测,并以7种算法模型(核密度估计、K-最近邻、逻辑回归、线性判别分析、支持向量机、神经网络、随机森林)进行数据分析,选出鉴别效果最好的标记组合及算法模型,进而构建自动判别软件。结果月经血和外周血中差别最大的三种miRNA为miR-205-5p、miR-203a-3p和miR-214-3p,使用miR-144-5p与上述miRNA中的一种或两种组合可达较好区分效果,其中基于miR-144-5p、miR-203a-3p和miR-205-5p所形成的“最优特征项组合一”稳健性最强。7种算法模型中最佳分类模型为核密度估计模型,其次为逻辑回归模型。结论本研究建立的自动判别软件界面友好、使用简单,适合辅助法医检验关于月经血和/或外周血判别分析的计算,便利于法医物证工作,有较大的推广应用价值。
关键词:法医遗传学;微RNA;外周血;月经血;自动化判别软件
犯罪现场遗留的体液样本类型及来源的判定,对犯罪行为分析、重建犯罪现场至关重要[1]。血液是犯罪现场常见的体液类检材,其准确定性可为案件侦破提供重要线索,因此寻找简便快速鉴别血液样本类型(如外周血还是月经血)的方法对于法医实践意义重大[2]。
微RNA(MicroRNA,miRNA)是具有调控功能的非编码RNA,其大小约为20~25个核苷酸,能附着在编码蛋白质的mRNA链上而抑制新蛋白的转录[3-4]。miRNA具有长度短、表达量高和稳定性好等特点,已被证实可用于各种体液类型的鉴定[5-18]。miRNA在不同体液中的表达特异性主要体现在其表达量上的差异,通过定性鉴定很难对其准确区分判断,因此越来越多的实验室开始使用数学算法模型对miRNA的相对表达量进行综合分析,以期得出更科学可靠的结论[6-7,14,16]。
本研究建模以外周血和月经血为样本,经实时荧光定量PCR技术获取不同miRNA分子在各样本中的相对表达量而组成分析数据集。选取7种模型算法即核密度估计(kerneldensityestimation,KDE)、K-最近邻(K-nearestneighbor,KNN)、逻辑回归(logisticregression,LOG)、线性判别分析(lineardiscriminantanalysis,LDA)、支持向量机(supportivevectormachines,SVM)、神经网络(neuralnetwork,NN)、随机森林(randomforest,RF),基于相同的数据集样本进行分析计算。最终选用核密度估计和逻辑回归作为后台算法模型开发软件,通过miR-144-5p、miR-203a-3p、miR-205-5p三种miRNA的相对表达量数据进行未知样本的类型判定计算,可实现外周血、月经血的自动判别。
1材料与方法
1.1样本的收集
来自中国北方25~35周岁健康成年人外周血样本136份,25~35周岁健康成年女性月经血样本104份。样本的收集均符合知情同意原则并已通过公安部物证鉴定中心伦理委员会审查[19]。
1.2候选miRNA分子标记信息
根据已报道的多篇研究文章,挑选出10种候选miRNA(miR-451a[6,8-10],miR-205-5p[6,12-13],miR-203a-3p[6-7,12-13],miR-214-3p[6,8,11],miR-144-3p[13],miR-144-5p[14],miR-654-5p[13,15],miR-888-5p[8,11,16],miR-891a-5p[8,11,16],miR-124-3p[7,17])进行此研究工作,使用RNU6b[6,18]作为内参基因对数据进行归一化,以确保结果的科学合理性[20]。
1.3miRNA相对表达量的获取
采用miRNeasyMiniKit(Qiagen,德国)试剂盒,按说明书提取样本中的总RNA。用Nanodrop2000c和Qubit4荧光定量仪(ThermoFisherScientific,美国)进行总RNA浓度和纯度的测定[12]。对定量后的RNA进行逆转录后,使用SYBRGreen法对提取的miRNA及内参RNU6b同时进行qPCR检测,以获取相对表达量数据。使用ΔCt值代表miRNA的相对表达量,用于训练和验证分类模型数据变量。ΔCt=Ct(miRNA)–Ct(RNU6b)(1)
1.4候选数据算法模型及模型评估标准
研究共选取7种模型算法,基于相同的数据集样本进行分析计算。KDE是一种非参数估计方法,可以根据数据样本本身研究数据分布规则,并根据给定的样本集求解随机变量的分布密度函数。KNN基于每个查询点的k个最近邻居执行学习,其中k是用户指定的整数,本研究选2。LOG是用于分类而不是回归的线性模型,其描述的可能结果的概率使用logistic函数对单个试验进行建模。LDA可用于执行有监督的降维,该线性子空间包含使类之间距离最大化的方向,并且还可以使用贝叶斯规则和概率密度函数将降维数据用于分类。SVM属于监督学习方法,它使用训练点的子集作为决策边界(称为支持向量)。NN方法为多层感知器,是一种有监督的机器学习算法,可学习用于分类或回归的非线性函数。在多层感知器的输入和输出层之间,可以存在一个或多个非线性层,称为隐藏层。本研究设置一个隐藏层,其由10个神经元组成。RF是一种通过集成学习的思想整合多个决策树的算法。在RF中,每个决策树都是一个分类器,然后对于一个输入样本集,每个树都将具有一个分类结果,并最终整合所有分类投票结果,而以指定投票数最多的类别作为最终输出。
相关期刊推荐:《刑事技术》ForensicScienceandTechnology(双月刊)曾用刊名:刑事技术资料,1976年创刊,是综合性学术期刊,是国内介绍法庭科学技术的权威性杂志。读者对象主要为基层公、检、法、司部门的技术警察、干部、侦察员,以及解放军、武警、铁路、交通、民航、林业、厂矿企业保卫部门的工作人员,各公安院校和其他大专院校从事法医学、刑侦、法律工作的师生等。目前涉及的学科有法医损伤学、法医物证学、法医分子遗传学、毒物学、痕迹检验、文学检验、指纹识别、微量物证检验、刑事照相、司法会计等专业。
根据体液的类型和来源,用于训练模型的样本分为外周血(136份)和月经血(104份)。这些训练样本的替代特征包括miR-451a、miR-205-5p、miR-203a-3p、miR-214-3p、miR-144-3p、miR-144-5p、miR-654-5p、miR-888-5p、miR-891a-5p和miR-124-3p的ΔCt值。为避免过拟合的风险,使用五重交叉验证方法来评估分类器性能。将样本集随机分为五个子集,同时确保每个子集中每种体液样本的比例一致,并使用其中四个对模型进行训练,然后在其余子集上验证训练后的模型。
2结果
2.1不同数目miRNA标记构建的模型准确性差异
为更方便在法医鉴定中进行应用,并降低分类器的复杂性以使其更稳定,同时确保良好的分类性能,需选择上述miRNA标记分子的较小子集作为最终使用的标记组合。为了确定适当的标记数量来构建具有低复杂度和高性能的模型,采用依次增加标记数量的方法,并检查每个标记的所有可能组合。将上述10种miRNA按照一定的数目进行组合,对于每一种组合,分别基于材料与方法中的7种方法进行模型的训练和测试。分别从每种组合数目的模型中选出测试准确性(采用MCC和AUC进行衡量)最高的一组模型,考察不同数目的miRNA标记所构建模型的准确性差异情况(图1),可见当标记数目为1时,只有LOG方法构建的模型中存在一个能够完全鉴别外周血和月经血的模型,该模型所用的分子标记为miR-203a-3p,但是对该模型重复100次的测试结果发现,该模型能够完全鉴别外周血和月经血的概率只有81%,无法满足实际应用需要,故排除只用一种miRAN鉴别外周血和月经血的可能性。
2.2不同方法构建的模型中能够完全鉴别外周血和月经血的模型数目
分别统计每种方法构建的组合中能够完全鉴别出外周血和月经血的模型数目,发现逻辑回归方法表现最好,其次为核密度估计,结果见图2。因此最终开发软件选择基于这两种方法。
2.3鉴别外周血和月经血的最优模型(最优组合以及最优方法)
选用差异性最大的miR-205-5p、miR-203a-3p以及miR-214-3p进行两两组合,验证使用两种miRNA进行外周血和月经血区分的能力,结果发现虽然都能够较好区分外周血和月经血,但由于月经血中存在明显的离群值,导致单独使用这三种组合中的某一种区分外周血和月经血都不能达到理想的效果。
进一步将其他miRNA与这三种miRNA(miR-205-5p、miR-203a-3p、miR-214-3p)中的一种组合却能达到很好的鉴别效果。所有由两种标记构建的模型中,一次测试结果能够完全鉴别外周血和月经血的组合有13组:miR-205-5p/miR-124-3p,miR-144-3p/miR-203a-3p,miR-891a-5p/miR-205-5p,miR-451a/miR-203a-3p,miR-888-5p/miR-203a-3p,miR-888-5p/miR-205-5p,miR-205-5p/miR-144-5p,miR-891a-5p/miR-203a-3p,miR-124-3p/miR-203a-3p,miR-214-3p/miR-144-5p,miR-451a/miR-205-5p,miR-144-3p/miR-205-5p,miR-144-5p/miR-203a-3p。每个组合均会出现miR-205-5p、miR-203a-3p或miR-214-3p中的一个,主要原因是这三种miRNA在外周血和月经血中的表达量存在较大的差异(图1C),在区分外周血和月经血的过程中起到主要作用,另外一种miRNA起到辅助作用,主要表现在能够使一种体液中的离群值远离另一种体液。
为进一步选出最优模型,对测试数据进行不同程度的数据扰动以进行模型稳健性测试,在每种程度的扰动下分别对上述13个组合重复测试100次,观察模型的F1值随着扰动程度的增加而发生的变化,以此来反映模型的稳健性。测试结果显示包含两种miRNA的最佳组合为miR-144-5p/miR-203a-3p,其次为miR-144-5p/miR-205-5p。对同一组合不同方法构建的模型进行对比发现,最优方法为核密度估计或逻辑回归,方法呈现出更好的稳健性。相关结果见图3。
测试miR-205-5p、miR-203a-3p、miR-214-3p两两组合后,再与miR-144-5p组合,筛选使用3种miRNA分子标记进行区分鉴定的最优模型,最终发现选取miR-205-5p、miR-203a-3p、miR-214-3p中的两种或一种与miR-144-5p组合能够得到较好的分类模型,其中3种标记分子的最优组合为miR-205-5p/miR-203a-3p/miR-144-5p,两种标记分子的最优组合为miR-144-5p/miR-203a-3p或miR-144-5p/miR-205-5p,3种标记分子的最优组合比只用两种miRNA的最优模型稳健性更强,且最优方法为核密度估计方法,其次为逻辑回归方法。相关结果见图4。
3软件设计及应用
3.1设计思路
根据上述数据模型分析结果,最终分别采用逻辑回归、核密度估计两种方法训练判别模型进行软件开发。该软件的模块包括模型选取、特征项输入、鉴定结果三个部分。运用数值模拟原理结合判别分析模型,输入待鉴定体液中测定的miRNA相对表达量数值,即可得出软件判别模型的预测结果,从而准确快速地检测出未知血液样本的类型。
3.2软件输入和输出
该软件内置了三种最优特征项组合(最优特征项组合一:miR-144-5p/miR-203a-3p/miR-205-5p;最优特征项组合二:miR-144-5p/miR-203a-3p;最优特征项组合三:miR-144-5p/miR-205-5p),用户也可自定义特征项组合。
当验证少量样本时,用户可在特征输入面板输入对应的特征项数值。输入完成并检查无误后,点击“类型鉴定”按钮,即可在鉴定结果面板输入鉴定结果信息。当验证大量样本时,用户需要批量导入训练数据,导入完成后选取最优特征项组合,点击模型训练进行体液类型的鉴定分析。
3.3软件运行示例
本软件状态流程图如图5A所示。
使用SYBRGreen荧光定量PCR检测方法,检测获取未知样本中miR-144-5p,miR-203a-3p,miR-205-5p等3种miRNA的相对表达量数据。从基本功能模块中的模型选取面板选取“最优特征项组合一”,在特征项输入面板中输入未知样本中以上3种miRNA的相对表达量数据值,点击“类型鉴定”按钮后,在鉴定结果面板输出两种数据分析方法所分别给出的判别结果,未知样本两种判别方法均为外周血,同时给出判定的概率数值:属于外周血的概率为1,属于月经血的概率为0。同时在右侧的图形化展示面板中,直观展示未知样本的分布情况。图形化展示面板是通过降维分析展示的两类体液的样本数据分布差异,其中外周血为红色实心圆点集合、月经血为紫色实心圆点集合,未知样本(黑色实心圆点)落在外周血样本组成的数据集内,见图5B。多个实际样本测试结果显示,“最优特征项组合一”对外周血和月经血的区分度最好。——论文作者:王国力1,2,刘扬3,何红霞1,4,季安全1,张伟2,曹洋3,*,孙启凡1,*
* 稍后学术顾问联系您