摘 要 : 随着高通量测序技术的发展,目前高通量整合分析技术是获取最终生物学信息必不可少的重要手段,是对传统药物作用机理研究方法的一次革命性变革。转录组学、代谢组学及二者联合应用是系统生物学的重要组成部分,近年来广泛应用在药物作用机理研究相关的各个领域,如新药开发、提高药效和评价药物毒性、指导药物联合治疗等方面,已成为研究药物作用机理中不可或缺的筛选阶段。同时对转录组学、代谢组学、四种转录组 - 代谢组联合分析方法进行了综述,对不同联合分析方法的优缺点及存在的问题进行简要分析,阐述了近几年两组学联合分析方法在药物作用机理研究中的应用,展望其下一步的发展前景与挑战,以期探讨转录组学和代谢组学及其二者联合应用在药物作用机制研究中的策略,为今后药物作用的分子机理研究提供借鉴与参考,进而基于现有研究基础发掘新的研究方法与途径。
关键词 : 转录组学 ;代谢组学 ;转录组 - 代谢组联合分析方法 ;药物作用机理
药物作用机理的研究在新药开发、提高药效和评价药物毒性、指导药物联合治疗等方面具有重要作用。目前,研究药物作用机理大多靠传统药理学方法[1],然而这些传统的策略在研究中具有局限性,主要集中在表观遗传学和形态学观察或仅仅是分子靶点的鉴定等[2]。随着高通量测序技术的发展,使用组学(Omics)这门新兴技术采集生物学数据信息的方法越来越普遍。早期的研究倾向于仅使用一种组学来分析研究[3-4],然而,越来越多的对于药物作用机理的研究正在利用多组学联合的技术手段开展[5-6]。多组学联合分析的主要优势是通过这些整合的数据可以更好地分析生物体内发生的细微变化,为预测生物体作用功能靶点提供更可靠的数据支撑。虽然在不同的文献中介绍过不同组学的研究方法,但由于价格低廉等优势,在药物作用机理研究中最常用的研究方法是转录组 - 代谢组联合分析,这种方法和策略在研究药物作用机理方面发挥着重要作用。近年来,许多研究人员利用转录组学、代谢组学对药物作用机理进行了大量的研究并且取得了一定的成果[6]。现今,转录组 - 代谢组联合分析已广泛用于探索药物作用机制的研究,本文主要从转录组学概念、代谢组学概念、转录组 - 代谢组联合分析概念及联合分析的方法出发,阐述它们在药物作用机理研究中的应用,目的是探讨转录组学和代谢组学及其二者联合应用在药物作用机制研究中的策略,从而不仅为今后药物作用的分子机理研究提供借鉴与参考,并且希望能够基于现有研究基础发掘新的研究思路与方法。
1 转录组学
在完成人类基因组测序以及许多其他生物基因组测序后[7],生命科学进入了后基因组时代,功能基因组学成为了目前研究的主流方法。转录组学(Transcriptomics)是功能基因组学的重要组成部分[8]。转录组学的研究对象是一种细胞或组织的基因组所转录出来的 RNA 的总和,其研究目的是确定基因的转录结构并解释基因功能,从而揭示药物在机体中作用的相关机制[9]。
转录组学的研究方法包括基因芯片技术(Microarray)和高通量 RNA 测序技术(RNA Sequencing, RNA-Seq)[10]等。最初,研究人员通过杂交测序方法将数千个短 DNA 片段构建成基因芯片,并通过与芯片上的特定位点探针靶向杂交来检测这些基因的表达。目前为止,大量的基因芯片研究在人们对生物变化过程的理解方面提供了实质性的帮助[11],然而,由于其杂交灵敏度有限,很难检测出低丰度的 mRNA。另一种转录谱分析方法是基于高通量测序仪的发展而出现的 RNA-Seq,该方法引入了测序和转录本数字化的概念,通过随机剪切的短 cDNA 序列测序,计算 mRNA 的表达量。相比于前者,RNASeq 对功能基因组研究非常有效,能够检测出组织或细胞样品内全部基因表达谱。
这些转录组学方法为解释生物学功能中基因表达差异及寻找药物在机体中的作用靶点都提供了有力的技术支持。Ujihira 等[12]通过基因芯片鉴定了 11 种与他莫昔芬反应有关的小 RNA,其中之一是肿瘤抑制 miRNA,miR-574-3p。Kim 等[13]通过 RNASeq 研究了嗜油不动杆菌 DR1 的诺氟沙星耐药性,分析了用诺氟沙星处理的 DR1 和 DR1 之间 RNA 的差异。以上两项研究分别用了上述两种方法,随着科技发展,RNA-Seq 由于提高了检测的特异性和准确性越来越受到学者们的青睐。转录组测序虽然可以得到大量差异表达基因和调控代谢通路,但由于基因与表型之间很难直接关联,导致关键的药物作用信号通路难以确定,因此往往很难达到预期的研究目的。
2 代谢组学
代谢组学(Metabolomics)是指定性定量测定活体系统内经病理生理刺激或遗传修饰引起的动态变化的代谢物质[1],近来广泛应用于药物毒理机制,疾病发生过程和药物开发等研究领域,特别是在新药开发领域具有深远影响[14-20]。当药物作用时,随着时间的改变,机体内往往都伴随着代谢物的微小变化,采用代谢组学现代分析技术,不仅可以测定这些微小变化的代谢物,并且通过对比代谢物可以发现特异性生物标记物。传统方法如利用生化指标对药物作用方式进行评价时,往往只局限于对特定物质进行检测而忽略了药物对机体的整体影响,难以准确反映生物系统对药物作用引起的全面变化,如今利用代谢组学评价药物对机体的作用能够更加准确全面的反映生物系统整体的动态变化,通过对变化的代谢物进行测定,可为进一步阐明药物作用的分子机制提供强大的数据支撑。
代 谢 组 学 分 析 方 法 包 括 核 磁 共 振(Nuclear magnetic resonance,NMR)[21]、液相色谱质谱联用(Liquid chromatograph mass spectrometer,LCMS)[22]、气相色谱质谱联用(Gas chromatography mass spectrometer,GC-MS)[23] 等。 不 同 技 术 其 检 测 偏向性不同,但不同平台之间具有互补性。一般来说 NMR 的灵敏度最低,能检测并定性的物质少于 100 个,其优势是简单、无损伤、可定量[24]等。质谱的灵敏度大概是 NMR 的千倍,GC-MS 可检测的物质数量一般为 1 000 个以上,但由于对样品要求比较严格,其应用受到了一定限制[25]。虽然 LC-MS 检测物质的数量要比 GC-MS 少一些,但由于其避免了对样品进行复杂的前处理等步骤,并且由于能够方便的对样本进行定性定量分析而深受大众青睐[26]。近年来越来越多学者利用代谢组学手段研究外源物质在生物体内的作用机制。王喜军等[27]通过代谢组学研究方法辅以生物化学鉴定方法阐明了茵陈蒿汤对酒精性肝病大鼠具有良好的保肝作用。查伟斌等[28]基于 GC-MS 检测技术的代谢组学方法,研究银杏提取物对高脂诱导动脉粥样硬化引起的代谢紊乱的作用,阐明银杏提取物抗动脉粥样硬化效果与其对脂质代谢、胆酸合成及氨基酸代谢的调控密切相关。
然而,单一代谢组学方法并不足以阐述生物系统内发生的各种变化,其方法在很大程度上取决于 1H-NMR、MS[29]和色谱的发展,另外,许多学者倾向专注于某一循环系统代谢物的分析,但循环系统内的物质变化是许多生物系统共同反应的综合结果,因此通过单一代谢组学研究并不能获得对组织内产生的具体反应机制的全面阐述。另外,由于目前对代谢物种类分析的局限性,只依靠代谢组学研究结果难以对药物作用机理进行全面的生物学解释[30]。
推荐阅读:发表植物转录组测序类文章的SCI期刊
SCI是国际期刊,对投稿论文要求极高,再加上语言差异,一般在SCI上发表论文的作者很少,所以研究植物的作者,对SCI期刊了解得不是很多。有想了解的作者,可以与期刊天空在线编辑联系。
3 转录组-代谢组联合分析方法
随着高通量测序技术的完善和各种组学方法的成熟,不同组学的组合使用越来越受欢迎,然而研究过程中对于产生的大量数据进行分析是目前面临的最大挑战。通过整合不同组学数据来分析比较不同数据间的关系以及阐述综合数据所说明的生物学问题才是最终研究目的,因此分析这些复杂数据的统计学工具必不可少。转录组 - 代谢组联合分析(Transcriptome-metabolism conjoint analysis) 中, 有多种数据整合分析的方法,包括基于相关性分析将数据结合的方法、基于级联的集成方法、基于多变量整合的分析方法和基于代谢通路数据库来整合分析数据的方法,学者们可以根据不同的生物学研究目的确定不同的联合分析手段[31]。
3.1 基于相关性分析将数据结合的方法
通过联合分析手段探索多元数据的简单方法之一是寻找数据集之间的相关性。这里有两种常用的方法,其中最常见的是 Pearson’s 和 Spearman’s 相关分析方法[32]。虽然科学家们期望通过此种方法找到代谢物与基因之间的关联,然而仅使用这种单一方法往往不足以达到预期目的。虽然人们普遍认为遵循中心法则的信息流动应该符合层层递进的规律,然而 Kuile 和 Westerhoff[33]发现 mRNA 与其相应的代谢物之间并不符合预期的数量关系,并且 Moxley 等[34]也报道了酵母中转录物和代谢物之间的相关性非常低。
除了使用 Pearson's 或 Spearman's 等标准相关系数外,还有 Goodman 和 Kruskal 伽马检验[35],这种分析方法仅考虑每种代谢物或基因的上调或下调,如用线性模型仅通过转录组的变化预测相应代谢物变化趋势[36]。事实上,直接利用相关系数来联合分析两组学数据存在一些潜在问题,分析过程中如果那些已知在路径上密切相关的元素不表现出相关性,则我们需要通过其他的分析方法来给予辅助。
3.2 基于级联的集成方法
基于数据级联的集成方法是最早出现,且最简单的方法之一,它可将多个组学数据集集合成单一模型。通过将每种组学技术产生的数据表汇总成单个数据表,应用自组织映射[37-38]、K 均值聚类分析[39]或随机森林[40]等算法进行分析。Daub 等[41]介绍了一种在线软件 MetaGeneAlyse,它可以通过运行上述标准方法来针对转录组 - 代谢组进行数据分析。代谢组和转录组数据集分别是从不同的分析技术中获得的,其两组数据集大小不一,这意味着数据集具有不同的标注模式与结构、不同的期望值、不同的底层噪声分布和不同的方差,因此,从简单连接的数据集中获得代谢组和转录组数据之间的联系并非易事。当对连接的数据集进行聚类时,来自不同数据集的元素将倾向于与其自身数据集中的其他元素聚类,从而可能会掩盖组间关联。
尽管需要进行更多的研究来弥补这些局限性,但使用诸如 iCluster[42]这样的工具可将这些问题最小化,这些潜在的分布差异影响可以通过去除信号低甚至没有信号的元素将噪音的影响最小化。虽然通过预处理完全消除这些影响是不可能的,但是可以结合本文中的其他方法对代谢组 - 转录组数据进行进一步分析,其结果的可信度会更高。
3.3 基于多变量的整合方法
除了前面描述的相对简单的分析方法外,还可以利用多变量建模的方法进行转录组 - 代谢组联合分析。这种方法在用于生物学分析之前常用于化学计量学领域。两种最常见的多变量分析方法是主成 分 分 析(Principal component analysis,PCA) 和偏 最 小 二 乘 回 归(Partial least squares regression, PLSR)[43-44]。通过这种分析,研究人员可以利用一个数据集来预测另一个数据集并且找到两个数据集之间的“协方差”关联。与上述分析方法不同的是,这种方法可以将代谢组学和转录组学数据集保持在模型内的独立模块中。
最早利用 PLS 模型整合代谢组数据和转录组数据的是 Griffin 团队[45]。他们将两组乳清酸处理大鼠的转录组与代谢组结合,用代谢组 NMR 光谱作为模型的 x 值,转录组数据作为待预测的 y 值,随后他们通过模型找出了各种与基因相关的代谢物。这种建模方法解释了乳清酸对于大鼠脂肪肝作用的相关代谢物,同时结果也表明 1H-NMR 与基因表达谱数据相结合的方法有利于挖掘复杂生物系统中发生的微小反应。这种模型同样也被 Jauhiainen 等[46]以类似的方式预测转录谱中的相关代谢谱。在 Griffin 的方法中必须定义一种数据集作为 x,事实上这两个数据集在模型中并非等价。因此,这种情况下,我们可以选择更为泛化的评价方法,称为 O2PLS[47]。正 交 偏最 小 二 乘 法 方 法(Orthogonal partial least squares,OPLS)是一种新发展起来的将正交信号校正方法与 PLSR 进行结合对 PLSR 进行修正的分析方法,而 O2PLS 是一种泛化的 OPLS,可在两个数据矩阵中进行双向建模和预测。在这个算法中,x 和 y 是等价的,所以无论分配哪个数据集作为 x 或 y 无关紧要。Eveillard 等[48]用这种方法检测了内二(2- 乙基己基)邻苯二甲酸酯暴露后的人体肝脏转录物和血浆代谢物。
* 稍后学术顾问联系您