更新时间:2024-05-21 15:32
比较基因组学(Comparative Genomics)利用模式生物基因组与人类基因组之间编码顺序上和结构上的同源性,克隆人类疾病基因,揭示基因功能和疾病分子机制,阐明物种进化关系,及基因组的内在结构。
模式生物基因组研究揭示了人类疾病基因的功能,利用基因顺序上的同源性克隆人类疾病基因,利用模式生物实验系统上的优越性,在人类基因组研究中的应用比较作图分析复杂性状,加深对基因组结构的认识。
“一个物种的不同器官之间的差异要比与另一物种的同一器官之间的差异大的多。”
相似性 (similarity)
同源性 (homology)
直系同源 (orthology)
旁系同源 (paralogy)
直系同源与旁系同源
直系同源的序列因物种形成(speciation)而被区分开(separated):若一个基因原先存在于某个物种,而该物种分化为了两个物种,那么新物种中的基因是直系同源的;
旁系同源的序列因基因复制(gene duplication)而被区分开(separated):若生物体中的某个基因被复制了,那么两个副本序列就是旁系同源的。直系同源的一对序列称为直系同源体(orthologs),旁系同源的一对序列称为旁系同源体(paralogs)。
直系同源体通常有相同或相似的功能,但对旁系同源体则不一定:由于缺乏原始的自然选择的力量,复制出的基因副本可以自由的变异并获得新的功能。
通过对不同亲缘关系物种的基因组序列进行比较,能够鉴定出编码序列、非编码调控序列及给定物种独有的序列。而基因组范围之内的序列比对,可以了解不同物种在核苷酸组成、同线性关系和基因顺序方面的异同,进而得到基因分析预测与定位、生物系统发生进化关系等方面的信息。
全基因组的比较研究
比较基因组学的基础是相关生物基因组的相似性。两种具有较近共同祖先的生物,它们之间具有种属差别的基因组是由祖先基因组进化而来,两种生物在进化的阶段上越接近,它们的基因组相关性就越高。如果生物之间存在很近的亲缘关系,那么它们的基因组就会表现出同线性(synteny),即基因序列的部分或全部保守。这样就可以利用模基因组之间编码顺序上和结构上的同源性,通过已知基因组的作图信息定位另外基因组中的基因,从而揭示基因潜在的功能、阐明物种进化关系及基因组的内在结构。
系统发生的进化关系分析
生物其中一个特征是进化,比较基因组学同样以进化理论作为理论基石,同时其研究结果又前所未有地丰富和发展了进化理论。当在两种以上的基因组间进行序列比较时,实质上就得到了序列在系统发生树中的进化关系。基因组信息的增多使得在基因组水平上研究分子进化、基因功能成为可能。通过对多种生物基因组数据及其垂直进化、水平演化过程进行研究,就可以对与生命至关重要的基因的结构及其调控作用有所了解。但由于生物基因组中约有1.5%~14.5%的基因与“横向迁移现象”有关,即基因可以在同时存在的种群间迁移,这样就会导致与进化无关的序列差异。因此在系统发生分析中需要建立较完整的生物进化模型,以避免基因转移和欠缺合适的多物种共有保守序列的影响。
同种群体内基因组存在大量的变异和多态性,正是这种基因组序列的差异构成了不同个体与群体对疾病的易感性和对药物与环境因子不同反应的遗传学基础。
单核苷酸多态性(single-nucleotide polymorphism,SNP)是指在基因组水平上由于单个核苷酸位置上存在转换或颠换等变异所引起的DNA序列多态性。根据SNP 在基因中的位置,可分为基因编码区SNP(coding-region SNP,cSNP)、基因周边SNP(perigenic SNP,pSNP)以及基因间SNP(intergenic SNP,iSNP)等3 类。2005年2月17日公布的第一份人类基因多态性图谱是依据基因“连锁不平衡原理”,利用基因芯片在71 个欧洲裔美国人(白色人种)、非洲裔美国人(黑色人种)和汉族华裔美国人(黄色人种)中鉴别出了158 万个单一核苷酸变异的DNA 位点,这个图谱将有助于预测某些疾病发生的可能性以及施以最佳治疗方案,在实现基于基因的个体化医疗目标的征途上走出了重要的一步。
拷贝数多态性
在全基因组测序和基因芯片技术发明前,受限于基因组内高通量DNA拷贝数检测手段,人们对全基因组范围内的拷贝数多态性(copy number polymorphism,CNP)数量和分布知之甚少。2004年,全球内数个“人类基因组计划”研究基地意外地发现,表型正常的人群中,不同的个体间在某些基因的拷贝数上存在差异,一些人丢失了大量的基因拷贝,而另一些人则拥有额外、延长的基因拷贝,研究人员称这种现象为“基因拷贝数多态性”。正是由于CNP 才造成了不同个体间在疾病、食欲和药效等方面的差异。研究表明,平均2 个个体间存在11 个CNP的差异,CNP 的平均长度为465 kb,其中半数以上的CNP 在多个个体中重复出现,并经常定位于其他类型的染色体重排附近。