摘要:基因组选择技术是目前动植物遗传育种的关键技术和研究热点,已在一些动植物的遗传改良工作中取得了重要进展。林木具有世代间隔长的生物学特性,因而育种周期长,早期选择是缩短林木育种周期和加快林木育种进程的有效方法。林木早期选择研究可以粗略分为3个阶段:基于性状表型早晚期相关的早期选择、分子标记辅助选择的早期选择以及基因组选择。林木遗传改良的目标性状主要是生长性状和木材品质性状,其大都是复杂的数量性状,在生长进程中受到更加持久的环境影响。同时生长性状的遗传力是随着生长进程而发生变化的。基因组选择在林木遗传改良中的应用受限于多年生林木自身特点以及研究基础薄弱,包括世代间隔长、体型高大、幼龄期长、基因组和表型组等组学数据匮乏以及相关研究技术平台不完善等因素。为了推动基因组选择技术在林木遗传改良中的应用进程,本文介绍基因组选择技术的原理与方法,总结基因组选择技术在林木遗传育种中的研究进展,探讨基因组选择技术在林木遗传改良中应用的限制性因素。简要介绍基因组选择的线性模型、统计学估计方法(SNP-BLUP、GBLUP和Bayesian估计模型)和分析工具(rrBLUP、synbreed、BGLR、GVCBLUP、GAPIT、sommer和BLUPGA,等)。概括总结基因组选择技术在林木育种中应用的优势,简要概述阔叶树种(杨属、桉属、油棕属和橡胶树属)和针叶树种(松属和云杉属)的基因组选择研究案例,以油棕基因组选择研究作为典型案例分析。林木树种的基因组选择研究案例均表明基因组选择技术有助于提高林木选育效率和加快林木育种进程。深入探讨林木树种的参考基因组、全基因组关联分析、育种群体、连锁不平衡和多年生属性5个方面对林木基因组选择研究的影响。基因组选择在林木遗传育种研究中具有潜在应用前景,但其可行性仍需要大量的模拟数据和真实数据评估。当前林木基因组选择研究所面临的重要问题:1)林木树种的基因组组装质量普遍不高;2)如何开展林木多性状全基因组选择研究;3)针对多年生林木树种自身特点,设计出合理的试验方案,开发具备纵向性状数据处理能力的统计模型和分析软件。
关键词:基因组选择;选育效率;林木遗传改良;全基因组关联分析
基因组选择(genomicselectionorgenome-wideselection,GS)研究在家畜和农作物遗传改良中已取得了重要进展,其中应用于奶牛的遗传改良成效显著。美国农业部从2009年开始对奶牛开展GS研究,配种公牛和配种母牛的育种周期都减少到2.5年,大大加速了育种进程(Garcia-Ruizetal.,2016)。中国农业大学联合全国畜牧总站等单位完成的中国荷斯坦牛GS分子育种技术体系的建立与应用的研究成果,使我国荷斯坦奶牛(Bosprimigeniusf.taurus‘Holsteincattle’)年产奶量从4500kg提高到5500kg,显示GS在我国奶牛遗传改良中取得了重大进展(http:∥www.most.gov.cn/kjbz/201703/t2017-132048.htm)。相较于家畜GS,农作物研究起步较晚,但近年来发展迅速,在水稻(Oryzasativa)(Onogietal.,2016;Xuetal.,2018)、玉米(Zeamays)(Fritsche-Netoetal.,2018;Milletetal.,2019)、小麦(Triticumaestivum)(Huangetal.,2016;Bassietal.,2016)、大麦(Hordeumvulgare)(Schmidtetal.,2016;Thorwarthetal.,2017)、苹果(Malus×domestica)(Kumaretal.,2012;Murantyetal.,2015)和梨(Pyruspyrifolia)(Iwataetal.,2013;Minamikawaetal.,2018)等农作物和果树的遗传改良研究中获得一定进展。
林木生长周期长,早期选择是缩短林木育种周期、加快林木育种进程的有效策略和方式(Diaoetal.,2016),长期以来一直是林木遗传改良研究中持续关注的热点。最早基于性状表型值早晚期相关(phenotypiccorrelationbetweenjuvenileandmatureperiod)的早期选择研究,其选择精度往往受限于试验样本量不足。基于分子标记辅助选择(markerassistedselection,MAS)的早期选择研究,由于筛选出的分子标记数量有限,早期选择效率不高。GS利用全基因范围内的所有分子标记估计目标个体育种值,并以此为依据筛选优良基因型(superiorgenotype)。相比于前2种早期选择技术,基因组选择具有更高的育种效率和更准确的选择精度。随着二代/三代测序技术与高通量SNP基因分型技术的快速发展,GS技术应用于林木重要性状早期选择已成为可能。
相比于家畜与农作物,林木树种的GS研究进展相对缓慢,主要是由于多年生林木树种的遗传学研究基础薄弱、研究技术平台不完善、基础型数据匮乏(例如,基因组数据、转录组数据、表观组数据和表型组数据)和独特生物学特性(世代间隔长、体型巨大和幼龄期长)。为了加快GS技术在林木树种遗传育种中的应用进程,本文对GS原理与方法进行全面介绍,并通过林木基因组选择案例的阐述和分析,对GS技术在林木遗传改良中应用的影响因素及发展前景进行讨论。
1基因组选择原理与方法
Meuwissen等(2001)首次提出了基因组选择(GS)的概念和原理。GS是一种新型遗传评估手段,对缩短育种世代间隔、加快遗传进展和提高选择效率等均具有积极作用(Meuwissenetal.,2001)。基因组选择技术已成为动植物育种领域中最具潜力的技术热点,期刊《GENETICS》和《G3:Genes|Genomics|Genetics》将GS相关研究论文归档(https:∥www.genetics.org/collection/genomic-selection)。
相关期刊推荐:《林业科学》是中国林学会主办的林业基础性和高科技学术期刊,创刊于1955年。主要刊登森林培育、森林生态、林木遗传育种、森林保护、森林经理、森林与生态环境、生物多样性保护、野生动植物保护与利用、园林植物与观赏园艺、经济林、水土保持与荒漠化治理、林业可持续发展、森林工程、木材科学与技术、林产化学加工工程、林业经济及林业宏观决策研究等方面的文章,以学术论文、研究报告、综合评述为主,还设有学术问题讨论、研究简报、科技动态、新书评介等栏目。以中文文章为主,也刊登附中文摘要的英文文章。
GS是利用覆盖全基因组的高密度分子标记估计个体的基因组育种值(genomicestimatedbreedingvalue,GEBV),并以基因组育种值为依据选择优良基因型/品种。GS一般需要构建参考群体(referencepopulation/trainingpopulation)和候选群体(candidatepopulation/testingpopulation)2个群体;利用参考群体中已知的表型(phenotype)和基因型(genotype)记录估计出GS线性模型中每个分子标记SNPs(singlenucleotidepolymorphisms)的效应值;然后,通过候选群体中个体的已知基因型数据和SNPs效应估计值估算GEBV;最后,根据GEBV排序从候选群体中选择出保留个体。
1.3GS分析工具
伴随着GS统计学估计模型的提出,很多应用这些GS模型的分析工具也被同步开发出来,例如rrBLUP(Endelman,2011)、synbreed(Wimmeretal.,2012)、BGLR(Perezetal.,2014)、GVCBLUP(Wangetal.,2014)、GAPIT(Lipkaetal.,2012)、sommer(Covarrubias-Pazaran,2016)和BLUPGA(Kaineretal.,2018)等,具体见表1。目前GS分析工具的主要特点:1)缺乏针对林木特点(多年生、异交和全同胞家系成员庞大)的分析工具;2)主要基于GBLUP和Bayesian2类统计学估计模型;3)C++、Fortran、Julia和R是开发GS分析软件所使用的计算机语言,而R语言是最常用的GS软件开发语言。由于R语言运行速度较慢,因此基于R语言的GS分析工具分析速度比较慢,该缺点在分析海量分子标记(例如100k级以上)时进一步地放大。因此,具备快速处理海量分子标记数据的能力必将是GS分析软件开发的重要方向之一。
2林木基因组选择研究进展
2.1GS技术在林木育种中应用的优势
相比家畜和农作物,林木GS研究起步不晚,但进展缓慢。Wong和Bernardo(2008)利用油棕(Elaeisguineensis)模拟数据系统地评估表型选择、分子标记辅助选择(MAS)和基因组选择(GS)3种选择方式后发现:GS的效果要明显好于表型选择和MAS,GS技术在世代间隔长和样本量小的育种群体中仍可获得一定的遗传增益。2012—2019年间,GS研究陆续在油棕属(Elaeis)、桉属(Eucalyptus)、橡胶树属(Hevea)、云杉属(Picea)、松属(Pinus)、杨属(Populus)等树种开展,取得重要进展(表2)。以上研究结果都表明:GS技术可以应用于林木遗传改良,有助于缩短林木育种周期、提高林木育种选择效率和加快林木遗传改良进程。GS技术在林木育种中应用的优势主要表现在:1)预测精度高,比表型选择和分子标记辅助选择2种策略具有更高的准确性;2)选择效率高,可以有效地缩短林木超长的育种周期(十几年甚至几十年)、增加单位时间内的遗传增益以及增强选择强度,最终实现加快林木育种进程的目标;3)可解释的遗传变异比例更高,这是由于GS使用全基因组范围内的高密度SNPs标记,遗传变异位点信息量巨大;4)子代测定成本相对较低(Grattapagliaetal.,2011;Isik,2014;Iwataetal.,2016;Nyoumaetal.,2019)。
2.2林木GS研究概述
目前,林木基因组选择(GS)研究都是以多年生异花授粉树种为研究对象,这些树种的生长周期较长且遗传杂合度高。针叶树种和阔叶树种在开展GS研究的树种中几乎各占一半。开展GS研究的针叶树种主要集中在云杉属[例如,欧洲云杉(Piceaabies)、白云杉(P.glauca)、黑云杉(P.mariana)、西加云杉(P.sitchensis)]和松属[例如,火炬松(Pinustaeda)和海岸松(P.pinaster)](表2)。针叶树种一般拥有一个杂合度和重复序列比例极高的10Gb级基因组,这为开展针叶树种GS研究带来了极大的挑战,特别是在覆盖全基因组的高密度标记(SNPs)开发方面(Nystedtetal.,2013;Biroletal.,2013;Nealeetal.,2014;Ziminetal.,2014;2017)。
与针叶树种类似,已开展基因组选择研究的油棕属[油棕(Elaeisguineensis)、美洲油棕(E.oleifera)](Singhetal.,2013)、橡胶树属[橡胶树(Heveabrasiliensis)](Rahmanetal.,2013;Lauetal.,2016;Tangetal.,2016)、桉属[赤桉(Eucalyptuscamaldulensis)、巨桉(E.grandis)](Hirakawaetal.,2011;Myburgetal.,2014)以及杨属[毛果杨(Populustrichocarpa)、胡杨(P.euphratica)](Tuskanetal.,2006;Maetal.,2013)均有一个以上的物种完成了全基因组测序。由于杨树作为林木模式物种的重要性,毛果杨是第1个完成全基因组测序的树种,推动了林木基因组研究的广泛开展。南京林业大学杨树研究组以美洲黑杨×欧美杨(P.deltoides×P.euramericana)全同胞家系为材料,结合该家系100多个体的生长性状24年生的表型数据,通过基因组重测序获得100k级的SNP位点,估计育种值和遗传力的动态变化,并在此基础上开展GS研究(朱嵊等,待发表)。
GS是以育种群体(参考群体)的基因型数据(即标记数据)和目标性状表型数据作为基础数据,通过统计学方法构建目标性状的GS预测模型。为了更好地理解以上所列的林木GS研究案例,从育种群体、标记数据、目标性状以及统计学方法这4个方面对这些案例进行简单的概括和分析(图1)。1)育种群体:多采用由全同胞家系(full-sib)或半同胞家系(half-sib)组成的育种群体,这些研究案例中的林木树种均属于异花授粉植物,一次杂交可以获得数量巨大且性状分离的F1子代。2)分子标记数据:绝大部分研究案例都采用SNPs分子标记,这是因为SNPs标记在全基因组上分布广泛且数量巨大(Shastry,2009),此特点与GS技术的“全基因组范图1林木GS案例的词云Fig.1Wordcloudofthegenomicselectioncasesinforestrytrees育种群体、标记数据、目标性状和统计学方法的关键词分别用紫色、红色、黑色和黄色表示。字体的大小代表其在林木基因组选择案例中出现的频率。此词云图是由Python软件包wordcloud(https:∥pypi.org/project/wordcloud/)所绘制的。Thekeywordsforbreedingpopulation,theamountofmarkers,thetargettraitandthestatisticalmethodsaredenotedinpurple,red,blackandyellow,respectively.Thefontsizerepresentsthefrequencyofthosekeywordsinthestudiesonthetreegenomicselection.ThiswordcloudchartisdrawnbythePythonpackagewordcloud(https:∥pypi.org/project/wordcloud/).围内的高密度标记”理念十分契合;基于SNPs芯片和基于重测序的SNP分型技术是为这些GS研究案例产生SNPs基因型数据的2种方式,针叶树种(云杉属和松属树种)案例的SNPs基因分型数据来自于SNP芯片,而阔叶树种(橡胶树属、油棕属和桉属)案例采用2种方式产生SNPs基因分型数据。3)目标性状:林木GS研究案例的目标性状可以简单地分成生长性状(树高、胸径、材积等)、木材性状(木材密度、纤维夹角、细胞壁厚度、弹性模量等)、果实性状(果/枝比、浆/枝比、核/果比等)、代谢性状(单株榨油率、精油总浓度、1,8-桉叶油素比例等)、发育性状(分枝数、萌芽率、生根率等)、纸浆性状(木质素含量、五碳糖和六碳糖含量、纸浆产量等)、抗性性状(冠瘿瘤体积、是否患锈病等)这几类;树高、胸径、木材密度、材积和纤维夹角(MFA,microfibrilangle)是最常用的研究性状。4)基因组育种值(GEBV)的估计模型:GBLUP、BayesianLASSOregression(BLR)、RR-BLUP和Bayesianridgeregression(BRR)是这些研究案例中常用的统计学估计模型。
基因组育种值(GEBV)估计精度是评价GS模型优劣的重要指标,也是GS研究的核心问题之一。GEBV估计精度受到多种因素的影响,包括标记类型与密度、标记抽样方法、数量性状位点(QTLs,quantitativetraitloci)效应的分布、连锁不平衡(LD,linkagedisequilibrium)、参考群体与测试群体之间遗传亲缘关系、参考群体样本量、样本间的亲缘关系、目标性状的遗传力与遗传结构、估计GEBV的统计学方法等(Habieretal.,2007;Grattapaglia,2014)。——论文作者:朱嵊1,2,3黄敏仁1,3
* 稍后学术顾问联系您