更新时间:2024-05-21 15:31
基因排列( genecombination),基因组是指细胞或生物体的全套遗传物质,对细菌或噬菌体、病毒而言,它们的基因组就是它单个染色体中所含的全部基因(DNA),对真核生物而言,其基因组则是其维持配子或配子体正常功能的全套染色体所含的全部基因(DNA)。基因组中有多少个基因?每一个基因在基因组中的位置如何、彼此之间的关系如何?不同生物之间同种基因或同类基因的大小、结构是否存在差别?同种生物不同个体之间的同一基因的结构、功能是否绝对固定不发生变化?这就是基因组合所要讨论的基本内容。根据现在的认识,各类生物的基因组中的基因组合有其基本特征。
一原核生物中基因组合的特点
原核基因组主要包括噬菌体基因组和细菌,立克次体,支原体等的基因组。病毒和噬菌体的特点随寄主不同而不同。
(一)噬菌体基因组合特点
噬菌体DNA分子是最小的,由于噬菌体依靠宿主细胞的许多功能来复制自己,它们所具有的遗传信息比宿主细胞的要少得多。几乎所有植物病毒和某些细菌病毒和动物病毒的基因组是由RNA组成,一般都特别小;而DNA病毒的基因组其大小范围比较广,最小的病毒的基因组仅有5kb左右,如单链DNA噬菌体174和微小病毒(parvovirus)都仅有约5kb左右,最大的有200kb左右,如T2噬菌体有182kb,豆类病毒有200kb。
1存在基因重叠现象病毒基因组一般都比较小,而编码的蛋白质的种类又比较多,有些病毒的基因组不够编码它自己的蛋白质,为了解决这一矛盾,就出现了基因重叠现象,例如174要编码9个蛋白质,而基因组仅有5kb左右,它的基因组存在A与B,C与K和D与E基因的完全重叠,其他基因有部分重叠(图2-24),按照3个核苷酸决定一个氨基酸的理论,在DNA序列中同一个核苷酸有3种编码ORF的可能性,即阅读框可重叠。基因重叠有同阅读框和异阅读框重叠,或反向基因重叠(两股链都有编码功能)。病毒基因组也存在着基因重叠的现象,如SV40。基因的重叠现象表明生物体能高效率地利用DNA分子中的信息,把大量的信息压缩到一个小DNA分子中,也可以解释为何某些病毒的基因数小于它们能合成的全部蛋白质的种类数。
在高等生物中则很少有ORF重叠的现象,而存在个别DNA双链分别作为2个基因的编码序列,例如,ear-1和esr-7基因都位于17号染色体,分别从互补链反方向转录。
1基因中无内含子编码基因是连续的,不存在如同真核编码基因所具有的内含子结构。但感
染真核细胞的病毒在许多方面同真核基因组的组织结构相类似,如基因有内含子,转录产物需要加工,基因表达和调控都同真核细胞相类似,其调控信号,启动子等都仅能被真核细胞所识别。
2具有操纵子结构噬菌体的宿主是细菌,其基因组的组织结构特点和细菌类似,有操纵子结
构,如174,从PD启动子开始转录的mRNA包含,(E),J,F,G和H等结构基因。
3噬菌体基因组有一些是单链环状DNA,如174,G4和M13,感染宿主细胞后,变成双链环状DNA,
在细菌内进行复制,双链环状DNA称复制型。另一些噬菌体是双链线状DNA,如噬菌体,感染宿主细胞后,形成双链环状DNA。
5基因按照功能分类和表达先后顺序线性排列如噬菌体,其基因组为双链DNA,在噬菌体颗粒中,是线性形式,两末端是粘性末端,感染细胞后,通过粘性末端形成环状双链。其基因的排列位置,有两个特点:按功能分类成族排列;按表达先后顺序排列。
(二)细菌基因组合特点
1基因组大小
大肠杆菌的染色体DNA比DNA约大85倍,其基因组DNA是单个双链环状DNA分子,含有大约4.7×106bp。它的线状长度大约有1.7mm,是细菌长度的850倍,所以大肠杆菌的DNA分子具有非常紧密的结构。
2细菌基因组的组合特点
(1)功能上相关的基因串联在一起组成操纵子结构,受同一个启动子调控,几个基因转录在同一条mRNA上,形成多顺反子mRNA(polycistronmessageRNA)。顺反子可以看作是基因的同义词。如大肠杆菌的乳糖操纵子和色氨酸操纵子(图2-26和27)。从左到右,基因的顺序是CAP-cAMP结合部位,启动子,操纵基因,SD顺序及Z,Y,A结构基因。这样的基因组合有如下几个特点:①与乳糖代谢有关的3个酶(半乳糖苷透过酶,glactosidepermeatase,-半乳糖苷酶,-glactosidase,半乳糖苷转乙酰基酶,glactosidetansathylase)的结构基因(Z、Y、A)串联在一起,并转录成一个多顺反子mRNA,但是每个顺反子前都有各自的核糖体结合位点(SD序列),独自与核糖体结合进行翻译;②控制乳糖操纵子表达的基因直接位于结构基因的上游,包含负调控(启动子和操纵子)和正调控(CAP-cAMP结合位点);③启动于和操纵基因是部分重叠的。当阻遏蛋白结合于操纵子基因时,在空间上直接妨碍了RNA聚合酶的转录,使结构基因Z、Y、A基因不能转录。这样的组织排布有利于按照内外环境变化的需要精确调控相关基因的表达,并能节约能源。
图2-26乳糖操纵子结构
细菌合成色氨酸所必须的3个酶(5种亚基—多肽)的基因,如同乳糖代谢所必须的酶的基因一样串联排列组成操纵子(图2-27),在这个操纵子的5’端有启动子和操纵子序列外,在结构基因与启动子和操纵子序列之间还存在编码领头肽(leadingpeptide)序列和衰减子(attenuator)序列,5个基因表达的正负调节。
图2-27色氨酸操纵子结构
(2)基因中不存在内含子,即不存在不连续基因,转录后无需进行加工修饰,直接可以翻译。在转录尚未完成前,就开始了翻译,形成转录翻译的偶联。
(3)基因组的绝大部分都用于编码蛋白质或rRNA和tRNA,只有小部分是非翻译区,其中包括调控顺序,核糖体结合位点。
(4)大肠杆菌基因组中一般没有基因重叠现象,仅有极少数的基因发现有基因重叠现象。如大肠杆菌的延胡索酸还原酶-氨苄青霉素基因frd-ampC中存在基因重叠现象,frd-D基因的C端10个氨基酸的编码序列与ampC基因的启动子有重叠。
(5)编码蛋白质的基因均为单拷贝基因。
(6)编码t-RNA和rRNA的基因是多拷贝基因,惟有多拷贝才能满足细菌合成蛋白质的需要。如图2-28所示,16SrRNA,tRNA,23SrRNA,5SrRNA等的基因串联排列在一起,并构成一个转录单位,重复7次,每个转录单位受同一启动子控制,转录成一个RNA分子,经转录后加工修饰后生成成熟的rRNA和tRNA。
二真核生物基因组织特征
对脊椎动物基因组DNA进行序列分析和其他分析的结果清楚地表明,所有脊椎动物和人类基因组中非常大的一部分,或许90-95%以上是非编码序列,即不编码任何mRNA前体和其他RNA,仅有10%或5%以下才是编码序列。非编码序列中的大部分序列,目前还没有发现它们有什麽功能。在多细胞生物中,这种非编码DNA中有各种不同类型的重复序列,有些重复序列的重复频率呈现高度的多态性;有些重复序列的位置在相同种属的不同个体间并不恒定,这种可移动的DNA片段,存在于原核和真核生物中。当它移动到基因组新的位置时,可引起突变,因此,在进化过程中可能起着重要的作用。
真核基因组序列可分成两大类,一是非编码序列,绝大部分为重复序列;二是编码序列,多数是单拷贝,大约1/3为多拷贝或低重复序列。
(一)非编码序列的特征
真核生物基因组非常复杂,复性动力学常数C0t1/2的数值能反映基因的复杂性。当真核基因组DNA用复性动力学进行分析时,发现其复性动力学反应的C0t值的范围常跨越8个数量级(10-4~104),从图2-28可见真核基因组的复性过程分为三个时相,每个时相都代表基因组的一个动力学组分,每一组分都有它自己特有的复性动力学,第一时相的组分叫快复性组分,总DNA的10~25%,C0t值在10-4~10-2之间,C0t1/2值为0.0013,这一组分序列比较简单,比较短,在基因组中重复出现最高可达几百万次,称为高度重复序列。第二时相的组分叫中速复性组分,占总DNA的25~40%,C0t值在0.2~100之间,C0t1/2值为1.9,这一组分在基因组中重复出现几百到几十万次,称中度重复序列。第三时相的组分叫慢复性组分,占总DNA的50~60%,C0t值在100~10000之间,C0t1/2值为630,这一组分在基因组中仅出现一次或几次,称单一序列或单拷贝基因。
1重复序列的分类
根据重复序列的重复次数(频率)分为三类:高度重复序列、中度重复序列和低重复序列。高度重复序列一般由非常短的序列组成,常集中在一起串联排列,重复次数非常高。中度重复序列一般由各种序列家族组成,可能串联排列,也可能分散存在,重复次数有很大变化,低重复序列重复次数为几次到几百次。
真核基因组DNA中的G:C碱基对的分布与细菌不同,是不均一的,约45~60%的DNA中G:C碱基对含量较高,小部分的碱基对含量相对较低,由于有这种碱基组成分布的不均一,在等密度梯度超离心分离后,出现一个主峰和一、二个小峰,这种小峰对主峰而言尤似主峰的卫星,所以称卫星DNA,它是多种短重复序列的混合物。按照重复序列的长度将卫星DNA分成3类:卫星DNA小卫星DNA微卫星DNA
(1)高度重复序列属卫星DNA,为快复性组分,重复序列长度在5~几百bp,聚集在一起,串联排列,重复次数大于100万,总长度最长可达100mb(m为1×106),它们多存在于异染色体,近中心粒和端粒,在人群中的多态性不强。
(2)中度重复序列属中复性组分,中度重复序列一般是分散的,主要由重复序列拷贝数很大的基因家族组成。中度重复序列的重复次数不等,在102-105之间,多的可达5×105,如Alu家族,它们的排列方向有一致的,也有相反的。
Alu家族是灵长类基因组内的特有的含量丰富的一种重复序列,长度大约300bp,在基因组中的重复频率在5×105,占人类基因组3~6%,可被限制性内切酶AluI水解,故而得名。Alu家族分散于整个基因组的间隔顺序中,多位于一些编码基因的5’端和3’端的远端(图2-29),例如在、、珠蛋白基因的两侧及胰岛素基因的两侧,也有的位于结构基因的内含子中。对于Alu序列的功能目前还了解不多,可能与基因转录的调节、hnRNA的修饰加工以及DNA复制的启动都有关,可能与人类的疾病发生也有关。
(3)低重复序列复性速率慢,重复频率在2-100。典型的低重复序列有两类:
A数量可变串联重复序列(Variablenumberoftandemrepeats,VNTR)属小卫星DNA,重复序列长度在15~70bp,串联排列,总长度在0.5~30kb,主要存在于常染色体,在人群中存在高度多态性。
B短串联重复序列(ShortTandemRepeats,STR)属微卫星DNA,重复序列的长度在2~6bp,其总长度有高度变化,存在于常染色体,也有高度多态性。这种重复序列又称简单串联重复序列(simpletandemrepeats,STRs),最普通的是2,3个核苷酸残基长的重复序列。在人群中,许多STR存在拷贝数的多态性,这种长度的多态性是由于STR在精子和卵子以及在生殖细胞减数分裂过程中发生不相等的交叉重组造成的,由于这种不相等的交叉重组,使STR的长度在每一个个体中就有差别,这是进行DNA指纹分析的基础。
2DNA的多态性
在人类中个体间的DNA序列存在着差异性,虽然这种差异仅占全部DNA的0.1%,但是,这个0.1%的差
异就是个体间差别的基础.在人群中同时和经常存在两种或两种以上不连续的基因型,较少一种基因型出现的频率不低于1%,就称DNA多态性。归纳起来,可分为三种多态性。
(1)限制性内切酶片段长度多态性(RestrictionFragmentLengthPolymorphism,RFLP)由于个体DNA
上的一个点上(碱基)的变异造成限制性核酸内切酶位点的产生或消失,用限制性核酸内切酶切割DNA时就会出现“能切”或“不能切”的两种状况,从而可以产生不同的DNA水解片段(即等位基因),或者在两个酶位点之间有片段的插入或缺失,也能造成RFLP.。再用凝胶电泳分离来显示这种片段长度的“多态性”,这种多态性称限制性内切酶片段长度多态性。
(2)重复序列拷贝数多态性
前面提到的数量可变的串联重复序列(VariableNumberofTandemRepeats,VNTR)和短串联重复序列
在人群中都存在重复次数的差异----存在多态性。VNTR由15~65bp为基本单位串联组成,串联单位的重复次数在人群中是高度变异的多态性。
短串联重复序列多态性(ShortTandemRepeats,STR)由1~8bp为基本单位串联组成,串联单位的重复
次数在人群中高度变异多态性。例如(TA)n、(CGG)n,重复次数在10~60次。
现已证明,有2个3核苷酸重复序列CCG和AGC可发生动态突变(dynamicmutation),这种突变可能引起神经系统的疾病。STR是十分复杂的,随着基因组全序列测定的完成,会有越来越多的STR发现。
一些显性遗传神经疾病的致病基因携带者在幼年时表型正常,而在个体发育的较晚期才表现出临床症状,这种情况被称为延迟显性。在延迟显性遗传病中,有时会看到早发或早现(anticipation)现象。即这类遗传病在连续几代后,发病年龄有提前倾向,病情也有加重趋势。近10年来的研究显示,这类遗传性神经疾病共同的分子机制为DNA序列中三核昔酸重复序列的不稳定性,这种不稳定DNA序列的基本突变方式是重复序列拷贝数的改变。突变体与其上一代的突变速率不同,突变的速率与拷贝数有关,重复序列的拷贝数越多,其子代发生进一步突变的危险越大,这种突变方式被称之为动态突变。动态突变可发生于减救分裂,也可发生于有丝分裂,减数分裂不稳定性表现为世代间拷贝数的改变,有丝分裂的不稳定性表现为同一个体不同组织或细胞系间拷贝数的不同,DNA序列的遗传不稳定性和动态突变机制的发现,解释了以前无法解释的早发及不完全外显率等现象。
迄今已发现10余种神经疾病与三核苷酸重复序列的遗传不稳定性有关,动态突变可发生于基因的5’非翻译区,3’非翻译区,内含子或外显子。
(3)单核苷酸多态性(SingleNucleotidePolymorphism,SNP)
定义在某一人群中(某一个国家、民族、地区的人群,是一个群体)的正常个体间的基因组DNA的某些位点的单个碱基对(核苷酸对)存在差别,有两种或两种以上的差别,我们可以把这位点用等位基因表示,即存在两种或以上的等位基因,最少的一种等位基因的出现频率不少于1%,就称为单核苷酸多态性(SingleNucleotidePolymorphism,SNP)。基因组中单个核苷酸的缺失或插入或重复都不属SNP。原则上,SNP可以有两种、三种和四种多态性形式,但在人类基因组中三、四等位基因型几乎是不存在的,所以,一般就把SNP称为二等位基因多态性标记。
SNP的产生基因组DNA双链中一条链上单个碱基发生改变,另一条互补链上配对的碱基同样发生相应的改变,尽管两条链都发生改变,但只能算是一个单核苷酸多态。碱基改变有两种方式,一种是同一类碱基的变换,称转换(transition,如C-T,A-G),另一种是不同类碱基的变换,称颠换(Transversion,如C-A、C-G、T-A)。在人类基因组中转换是主要的,占2/3,其他3种加起来占1/3。从目前已测定的SNP来看,SNP遍布整个人类基因组,根据现有数据推算,大约平均每1000个碱基就有一个SNP,总数可达300万个SNP。这就意味着一个个体中的每一个碱基都有0.1%的机会发生杂合性(Heterozygosity),当然在编码区的外显子区域发生杂合性或多样性(Diversity)要比非编码区低大约4倍,大约有一半导致非同义密码子改变。在某些特定区域SNP的密度可高达100倍,例如在非编码的HLA区域SNP的密度有5~10%,而另一些区域仅有0.1%,两个不同的个体的基因组之间约有几百万个单碱基的差别,相当于蛋白质组中约有100000个氨基酸的差别。人与黑猩猩基因组之间的差别也只有10倍于此的差别。如此众多的SNP必定有其重要功能。
CSNPcSNP是指出现在编码序列区的SNP(codingSNP)。到目前为止大多数SNP的数据来自cDNA序列,仅少数SNP数据来自已测序的基因序列,编码序列不仅限于编码蛋白质的基因序列,还应包括为RNA(tRNA、rRNA、snRNA等)编码的基因序列,这部分的SNP同样可能影响各类RNA的结构和功能,从而影响细胞及整体的功能。因此,不能把cSNP简单地看作cDNA中的SNP。在cDNA中发现的SNP可能来自基因组DNA,也可能因mRNA的编辑结果。
3DNA多态性检测与研究具有重要的理论和实际意义。
以上所述的DNA多态性都是在漫长的进化过程中形成的,具有遗传稳定性,可以遗传,因此可提供大量的遗传标记。这些遗传标记可以用来描述一个个体遗传结构和特征,也可用来描述一个群体的遗传结构和特征。具有十分广泛的用途;这些多态性还与基因的功能活性密切相关,严重影响人类个体的生命活动、健康与疾病。
(1)人类学研究中的应用:研究人类进化;研究不同群体之间、民族之间的关系;研究人类的起源,人
类的迁移(流动)等。
(2)人类疾病发生的分子遗传机理。
(3)遗传病的连锁诊断,疾病的关联分析。
(4)疾病相关基因的定位、克隆。
(5)法医学中的个体识别和亲权鉴定。
(6)环境因素易感基因的检出和疾病易感基因的检出:个体疾病预防,进入预防医学的时代。
(7)药物基因组学上的应用:新药发明,针对个体用药。
(二)编码基因组织特征
编码基因是指可转录的那部分基因,其转录产物或是mRNA,最终翻译成蛋白质、多肽,或是tRNA和rRNA,这部分基因仅占基因组的很小一部分,不足5%。编码基因由两部分组成,即结构基因和调控基因。结构基因是直接编码蛋白质、多肽的序列,即可被转录成mRNA,进而翻译成各种结构蛋白质和功能蛋白质如激素、酶等;调控基因是可调节控制结构基因表达的那部分序列。还有只转录不翻译的基因:rRNA和tRNA基因,也可算作结构基因。
1编码蛋白质的基因结构人类或高等哺乳类动物结构基因的结构如图2-30所示,有4个区域。
编码区:包括编码序列,称外显子(exon)和插入序列,称内含子(Inron)。
调控区:调节结构基因转录表达的序列,包括启动子、增强子、静止子等,也称侧翼序列。
前导区:主要是编码mRNA5’-端非翻译区的序列,包括核糖体结合部位。
终止区:包括控制转录终止和编码mRNA3’端非翻译区的序列。
调控区前导区编码区终止区
启动子
转录起始点多聚A位点
上游增强子外显子内含子外显子内含子外显子下游增强子
翻译起始密码翻译终止密码转录终止信号
2基因割裂现象编码基因在基因组中多为单拷贝,也有多拷贝,人基因组大约有1/3的基因为多拷贝。这类基因绝大多数都是不连续的基因,即基因内部含有非编码顺序,把编码序列隔离开来,称为基因割裂现象,此类基因又称为割裂基因(interruptedgene)。1977年Sharp首先发现这一现象,他们用提纯的腺病毒2的一个外壳蛋白的mRNA与腺病毒DNA的转录股的限制性核酸内切酶(EcoRI)片段杂交,然后在电镜下观察,发现双mRNA能完全与其杂交,但在杂交分子中有三个突出来的环状DNA部位,这三段顺序是腺病毒外壳蛋白基因中的三个插入顺序。接着在SV40、珠蛋白、卵清蛋白等多种蛋白质基因中也发现此种现象。图2-31显示卵清蛋自基因,有8个外显子和7个内含子。与它的mRNA进行分子杂交,在电镜下观察,可见到伸出杂交分子外的7个环。割裂基因的内部非编码部分称为内含子,编码部分称外显子,不同的基因有不同的内含子和外显子序列的数目,多的可有数十个。各个内含子或外显子的长度也不一样,差别很大。如vWF(vonWillebrandFactor)因子基因长约175kb,有53个外显子(Exon)和52个内含子(Intron);DMD(DuchenneMusclarDystrophin)基因长约2400kb,有80个外显子和79个内含子。所以真核基因明显大于原核基因。外显子一般比较小,通常在800bp以下,但也有多达数kb长的,如凝血VIII因子,最长的外显子有3.1kb,ApoB基因的最长外显子有7572bp。内含子长度变化比较大,从30bp左右到数十个kb。外显子的序列和mRNA相同,每一个外显子编码蛋白质的一个功能结构域;每个内含子序列都有一些共同特征,如5’端以GT开始,3’端以AG结束,称为GT/AG规则,在内含子内部还有与mRNA前体加工有关的序列。割裂基因是真核生物的普遍现象,仅有少数蛋白质基因无内含子,如组蛋白基因和干扰素基因等。
3一个基因可转录产生二种以上mRNA在原核生物,功能或代谢上相关的一组基因,通常串联排列,构成一个转录单位操纵子,产生多顺反子mRNA,翻译出多种蛋白质。和这种现象不同,大多数真核生物不存在操纵子这样的结构,每一个基因都单独构成一个转录单位,转录产生单顺反子mRNA,仅编码一种蛋白质。这种仅转录一种单顺反子mRNA,翻译出单个蛋白质的转录单位,称简单真核转录单位(simpleeukaryotictranscriptionunits)。虽然真核生物中不存在操纵子样的结构,但也存在另一种转录单位,转录出的初级转录产物可以通过不同的拼接方式产生一种以上的蛋白质,即一段DNA序列可编码多种mRNA或蛋白质。这种转录单位称复杂转录单位(complexeukaryotictranscriptionunits)。如图2-32所示,一个基因有2个启动子,2个终止子,5个外显子。在转录时,可能使用2个启动子中的1个,也可能使用2个终止子中的1个,或使用两种拼接方式对转录的初级产物进行加工,产生多种mRNA中的1种。例如大鼠肌肉的肌钙蛋白T基因和鼠淀粉酶基因,大鼠肌肉的肌钙蛋白T基因3’端有5个外显子,w,x,,和z。转录肌钙蛋白T的mRNA时,仅使用4个外显子,产生两种转录产物,除都使用w,x,z外,在x,z之间进行拼接时,或使用或者使用,故两种肌钙蛋白T的差别仅在或段的氨基酸序列(图2-33)。鼠淀粉酶基因有2个启动子,1个在唾液腺中有活性,另1个在肝脏中有活性,由于使用不同的启动子,产生了不同的mRNA(图2-34),当然产生的蛋白质也不同。一个基因一个酶,一个基因,一个蛋白质的概念,在这里已不适用了。人类基因组测序完成后,已发现人类基因组中仅有不到40000个基因,但是,目前已发现和测序的蛋白质有17万种以上。
4基因家族组织
大约有25~50%的真核细胞编码蛋白质的基因是单个基因,存在于基因组中。如鸡溶菌酶基因,有15kb,4个外显子,3个内含子,在其上下游大约20kb内无任何编码mRNA的基因存在;而其余50~75%编码蛋白质的基因都属于2个或2个以上相似基因构成的基因家族。