#
#基因组学#
年是人类基因组草图公布的20周年。二十年前,Nature和Science发表了两篇重要论文,揭示了人类基因组几乎完整的序列。这项研究计划历时13年,耗资超过30亿美元,最终人类基因组草图的公布将人类疾病研究推向了新的基因组时代。但回顾这20年的技术发展会发现,人类基因组草图的公布仅仅是一个旅程的开始,我们基因组中包含的大量信息及其与健康和疾病的相关性还有待发现,除此之外,技术的突破使得人类基因组的质量和精度越来越高,我们有理由相信,“完美基因组”时代离我们已经不远。当然这也对我们提出了高质量基因组的新要求。
年4月28日,深圳华大生命科学研究院张国捷团队与合作者在Nature上发表了题为:Evolutionaryandbiomedicalinsightsfromamarmosetdiploidgenomeassembly的研究论文。该研究利用家系的基因组测序数据,组装出了来自父母本的两套高质量基因组,这为进入“完美基因组”时代提供了一个范例,同时通过对比父母本的基因组序列,刷新了我们对于父母本遗传差异的认识。此外,通过与人大脑疾病相关基因的分析,该项研究展示了狨猴作为医学模式物种的潜在优势。
1.狨猴作为模式物种的意义
普通狨猴(Callithrixjacchus)是生活在巴西东北部大西洋沿海地区热带地区的一种小型猴子。成年的狨猴只有手掌大小,是世界上体型最小的灵长类之一(图1)。狨猴食性较杂,在野生环境下以昆虫、蜘蛛等无脊椎动物、一些小型脊椎动物、或树木的渗出液等为食。树木的渗出液是一种特殊的食物来源,这一现象又被成为“嚼口香糖(chewinggum)”。狨猴与人都属于简鼻亚目(Haplorhini),但人类以及其他猿类是起源于亚洲和非洲的旧世界猴(Catarrhini),而狨猴则是起源于拉丁美洲的新世界猴(Platyrrhini)。新旧世界猴在形态上有很多显著的差别,例如身体大小,鼻孔的形态,牙齿数目等,而身体大小在狨猴亚科体现的尤为显著,这也成为了它们在实验室饲养的一个重要优势。另外,不同于旧世界猴的繁殖特点,狨猴的寿命比较短,性成熟时间也较短,生育双胞胎的概率非常高,因此可以为实验室提供非常充足的样本资源。狨猴与人类在解剖学,生理学和药物代谢方面具有许多共同特征。除了是研究人类大脑高级功能的关键实验动物外,它们还是极佳的研究脑疾病机理和治疗方法的模型动物。
狨猴在生物医学领域研究较广泛,尤其是在神经退行性疾病,生殖生物学,药物动力学及药物的毒性筛查、干细胞研究、自身免疫性疾病、感染性疾病动物模型,以及登革热方面都具有较大的潜能。目前,狨猴现已作为动物模型用于多种生物学研究,已经开发出各种神经疾病模型,包括帕金森氏病,亨廷顿氏病,阿尔茨海默氏病,中风,多发性硬化症和脊髓损伤等,针对包括狨猴、猕猴在内的非人灵长类基因修饰动物的研究逐渐成为新的研究热点。
图1野外状态的狨猴,由华大基因供图2.基于家系(trio)的二倍体基因组组装
对于一个物种来说,其基因组包含了它们所有遗传信息,是遗传学研究的最重要和最基础的数据。我们人类和其他哺乳动物一样都是二倍体生物,拥有的两套染色体,一套来自于母亲,一套来自于父亲。然而,目前的大多数基因组研究往往只能得到一套父母本遗传信息混合的基因组,即同一条染色体中某一段的序列来自于父本,而另一段的序列来自于母本,类似于由两种颜色拼成的马赛克图案。这样会导致在检测变异位点的时候,丢失掉变异位点之间的连锁关系,即不知道这些突变是以何种组合方式遗传到子代。
为了得到更高精度且独立的两套基因组信息,还原测序个体遗传信息的父母本来源,研究人员采用了基于家系的基因组测序和组装方案。在该方案中,不仅对子代进行基因组的三代测序,同时还对其父母本的基因组进行二代高深度测序。通过父母本的高深度测序数据,得到父母本各自特有的序列集合,并利用这个信息将子代的三代测序数据拆分成独立的父母本两套数据,分别进行组装。经过一系列的拼接搭建过程,最终得到了两套各自组装到染色体级别的父母本单倍体基因组。母本和父本的单倍体基因组的N50分别达到Mb和Mb,两者的单碱基精确度分别达到了99.%和99.%。这为非人灵长类基因组的遗传和进化研究又提供了一个高质量的数据集。
这种通过家系进行组装测序的方法将为人们提供独立拆分好的两套基因组序列。这一方面有助于人们研究父母本两套染色体中序列间的差异以及这些突变之间的连锁关系,另一方面也将辅助人们进行更精细的基因表达调控等方面的研究。
图注:子代个体的两套染色体一套来自于母亲,一套来自于父亲。传统组装策略获得的是遗传信息混合的基因组,新策略则可以通过父母本特异的序列得到遗传自父母本的两套完整的基因组数据(杨琛涛和周旸绘)狨猴因其与人在生理结构、药毒性等方面的高度相似性,近年来常被用作研究人类疾病的医学模型。利用本研究得到的高质量狨猴基因组,对狨猴可作为人类神经疾病医学模型的遗传基础进行了解析。结果发现,狨猴和人之间与大脑发育相关的个直系同源基因中,只有24个在两个物种中存在拷贝数的差异,另外也只有8个基因在两个物种的序列之间存在着较大的dN/dS,说明这些基因在二者之间可能存在多样性的选择(diversificationselection)。另外,通过在狨猴中进行人类神经系统退行性疾病突变位点的扫描,研究人员发现:在人类中可能会引起神经退行性疾病的个位点中,大部分的位点狨猴中编码的氨基酸类型与正常人是一致的,而只有来自4个基因的4个位点,在狨猴中编码的氨基酸类型是人中导致或神经退行性疾病、或提高致病风险的氨基酸类型。这四个位点包括与阿兹海默症有关的APOE中CR突变,与高雪氏病有关的GBA中NS突变,与帕金森病有关的SNCA中A53T突变,以及与苯丙酮尿症有关的PAH中RQ的突变。利用狨猴群体的数据,进一步确定了这些位点在狨猴中是被固定下来的,而不是测序错误导致。以上结果一方面说明大脑发育相关的基因在狨猴与人之间高度保守,这也是狨猴可以成为研究人类神经疾病的遗传学基础;另一方面,研究人员也发现了在狨猴和人中存在着拷贝数差异以及编码序列差异的基因。这提醒着人们在利用狨猴研究对相关疾病的同时,需要注意到人和狨猴之间本身就存在的遗传背景差异,以更好地对这些疾病的机理和治疗手段进行研究。
3.两套染色体之间遗传差异
在人类基因组草图公布之时,科学家报道了两个不同的人之间基因组相似性为99.9%,这样的估计是利用通过传统基因组测序技术得到的两个个体的全基因组比较而来,在很大程度上忽略了单倍体的差异,所以来自父母本的两套染色体的遗传差异被低估。
在传统的基因组测序工作中,对于一个二倍体物种(例如人的基因组),因为只获得了一套父母本相互混杂的遗传序列,所以对于一个杂合位点(同源染色体上的同源基因具有不同的基因型,例如A/T),基因组的组装结果中只会有A,或者T,所以为了找出这种差异一般的做法是通过将测序数据比对到参考基因组上来估计杂合情况。然而,这种做法会导致只能获得非常有限的杂合变异的信息,首先这种变异一般限于单碱基的水平(SNV),而且即使分辨出杂合位点,也不能将这对杂合位点正确的分配到父母本中,这就大大的影响了一些疾病的研究。
而对于已经获得了父母本的单倍体基因组的物种,可以在个体水平检测这种基因组的异质性,而且是以一种更加简单直接的方法——直接比较来自于父母本的同源染色体(图3)。通过这样的方法,可以鉴定亲本等位基因之间全部类型的遗传变异,包括单核苷酸变异(SNV),插入/缺失(indels)和大的基因组结构变异。研究人员在整个基因组中鉴定了万个SNV和约23.2万个短插入缺失(≤50bp),27个倒位(inversion),34个易位(translocation)24个复杂的变异(倒位+易位,invertedtranslocation),过计算两个单倍体基因组之间的所有类型的变异,研究人员估计测序个体的常染色体上的总体杂合率约为1.36%,这个总体差异,大概是单独用SNV数据衡量结果的10倍。最大的染色体结构变异是来自于4号染色体的一个kb的倒位。这些结果刷新了对于物种内同源染色体之间差异程度的认识。除此之外,结合家系的数据以及实验验证,研究人员总共检测到9个种系突变位点,并依此计算出狨猴每代每个位点大约会累积0.43×10-8个突变。有意思的是,子代中来自父本的突变是来自于母本的两倍,这应该与父母本中精子、卵子发生细胞分裂的次数差异有关。
图3父母本遗传差异(杨琛涛和周旸绘)4.性染色体演化
我们知道来自父母本的两套染色体最大的差别就是性染色体,对于性染色体的同源区和非同源区比较和研究一直是进化研究中的一个重点内容。然而,由于在雄性个体中,X/Y性染色体测序数据仅仅是常染色体的一半,而且性染色体,特别是Y染色体的序列重复单元较多,因此常常难以组装得比较完整。在本研究中,研究人员利用多种测序手段,得到了Mb的X染色体和13.85Mb的Y染色体,其中Y染色体的长度目前所有已公布的狨猴Y染色体数据集中最接近核型染色估计的结果(20Mb)。通过多个灵长类物种X染色体的比较,发现在人类以及其他旧世界猴中X/Y之间还能重组的区域(PAR)中约0.5Mb的部分,在狨猴中已经发生了X/Y的重组抑制。这导致狨猴的中PAR的长度进一步的缩短,而X/Y染色体之间发生序列分歧的区域则进一步扩张。通过X、Y之间的比较,进一步的确认了这段0.5Mb的区域是由Y染色体上距今约5-10百万年前发生的转座事件导致。这同时也导致狨猴中产生了一个该物种特有的性染色体演化层级(stratum)。其中的X-Y基因对拥有着较高的演化速率(dN/dS),同时倾向在性腺中特异表达。这些特征表明,一旦这些基因在X/Y之间发生分歧,它们就很容易在自然选择的作用下,体现出与性别分化有关的特征。
通过比较分析,研究人员确认了X染色体在灵长类物种间基本保守,而Y染色体在物种间则经历了较大的变化,这很可能是由于Y染色体无法进行重组而导致突变积累所致。例如,与人比较发现,人和狨猴的Y染色体间存在至少3个较大的结构变异。另外,相对于人来说,狨猴的Y染色体上一些对精子形成过程至关重要的基因((HSFY1、VCY、USP9Y)发生了丢失或假基因化。这一现象可能与狨猴一夫一妻制的社会结构导致雄性个体精子竞争的降低有关。而相比之下,狨猴的Y染色体上只携带两个人类不存在的基因(ARSHY和THOC2Y)。其中THOC2Y是特异地从狨猴X染色体上的同源基因THOC2X复制而来;这个基因在其他灵长类的Y染色体上都不存在。考虑到这个基因在狨猴中是一个睾丸特异表达的基因,研究人员推测这个基因可能对雄性狨猴的生殖发育有着重要的作用。
图4性染色体进化(杨琛涛和周旸绘)5对狨猴生物学的新解读
作为狨亚科的代表性物种,狨猴猴具有许多突出的生物学特性,例如体型矮小,生双胞胎,“嚼口香糖”,很少受到因为性激素水平降低而导致相关的骨质疏松症。在年的由狨猴基因组联盟发表的文章中已经发现了和身材矮小和生殖特征相关的基因,如IGF1R和WFIKKN1基因等。
为了进一步扩展我们对这些生物学特征进化的认识,研究人员通过全基因组层面的分析,鉴定出个在狨猴中正选择的基因,以及38个在新世界猴中正选择的基因。在这些基因中,发现了ZDHHC13和FGFR1可能与显示体型缩小有关。另外,还发现了三个骨骼发育和骨质代谢相关的基因(BCL2L14,HOMER3和CHADL),它们参与破骨细胞生成和骨代谢,预示着和狨猴的特殊骨骼代谢形式相关。
狨猴的几种独特的生殖适应形状包括胎儿在子宫中共享胎盘血液循环,和优势雌性对非优势雌性的排卵抑制等。先前的研究已经报道了几种候选基因可能与这些性状有关。研究人员发现了三个狨猴正选择基因(PCSK6,NR1D1和TGIF1)也可能有助于它们的生殖适应。PCSK6在多种卵巢细胞类型中表达,PCSK6突变小鼠表现出卵巢功能的逐步丧失和卵巢病理形成。NR1D1是一个昼夜节律基因,可能与促性腺激素释放激素信号传导途径相互作用,敲除小鼠中的该基因会降低生育能力。TGIF1是一种阻遏物,可逆地调节TGF-β/SMAD信号通路的成员,该通路在生殖过程中起着重要作用,包括在卵泡活化,卵巢卵泡发育和卵母细胞成熟中。
此外,实验室中的圈养狨猴会间歇性地受到胃肠道疾病的困扰,这可能是由于人工饲养与野生动物的饮食差异引起的。野生狨猴以植物的渗出液(“口香糖”)为食物来源之一,以获取能量和矿物质。与圈养的狨猴相比,野生狨猴的肠道微生物组富含双歧杆菌。这种益生菌可能起到辅助树胶消化的作用。研究人员发现介导胃肠道炎症反应的PTGS1在狨猴中处于正选择状态。在肥胖大鼠的肠粘膜中该基因的表达较高,但在饲喂双歧杆菌时其表达降低至正常水平。这说明PTGS1可能在狨猴的肠胃功能中起作用,并且还会受到饮食的影响。
研究人员通过对狨猴这个生物医学模式物种的基因组测序和组装,展示了新的测序组装技术极大的潜力,可以为我们提供一个非常精准的基因组数据支持,在此基础上可以进行更为精细的疾病相关研究。人类基因组学在未来20年将走向何方?主要期望指的是精准医学的实施,该医学利用遗传信息根据每个人独特的遗传特征来定制干预措施,以预防和治愈从精神疾病到癌症的疾病。所以该项新技术会有很大的用武之地。
原文链接: