更新时间:2023-12-10 20:15
真核生物的基因组一般比较庞大,例如人的单倍体基因组由3×106 bp碱基组成,按1000个碱基编码一种蛋白质计,理论上可有300万个基因。但实际上,人细胞中所含基因总数大概会超过10万个。这就说明在人细胞基因组中有许多DNA序列并不转录成mRNA用于指导蛋白质的合成。DNA的复性动力学研究发现这些非编码区往往都是一些大量的重复序列,这些重复序列或集中成簇,或分散在基因之间。在基因内部也有许多能转录但不翻译的间隔序列(内含子)。因此,在人细胞的整个基因组当中只有很少一部分(约占2-3%)的DNA序列用以编码蛋白质。
3.存在重复序列,重复次数可达百万次以上。
4.基因组中不编码的区域多于编码区域。
5.大部分基因含有内含子,因此,基因是不连续的。
6.基因组远远大于原核生物的基因组,具有许多复制起点,而每个复制子的长度较小。
简介
高度重复序列在基因组中重复频率高,可达10^3以上,因此复性速度很快。在基因组中所占比例随种属而异,约占10-60%,在人基因组中约占20%。高度重复顺序又按其结构特点分为三种。
倒位重复序列
这种重复顺序复性速度极快,即使在极稀的DNA浓度下,也能很快复性,因此又称零时复性部分,约占人基因组的5%。反向重复序列由两个相同顺序的互补拷贝在同一DNA链上反向排列而成。变性后再复性时,同一条链内的互补的拷贝可以形成链内碱基配对,形成发夹式或“+”字形结构。倒位重复(即两个互补拷贝)间可有一到几个核苷酸的间隔,也可以没有间隔。没有间隔的又称回文(palimdr-ome),这种结构约占所有倒位重复的三分之一。若以两个互补拷贝组成的倒位重复为一个单位,则倒位重复的单位约长300bp或略少。两个单位之间有一平均1.6kb的片段相隔,两对倒位重复单位之间的平均距离约12kb,亦即它们多数散布非群集于基因组中。
卫星DNA
卫星DNA(satelliteDNA)是另一类高度重复序列,这类重复顺序的重复单位一般由2-10bp组成,成串排列。由于这类序列的碱基组成不同于其他部份,可用等密度梯度离心法将其与主体DNA分开,因而称为卫星DNA或随体DNA。在人细胞组中卫星DNA约占5-6%。按照它们的浮力密度不同,人的卫星DNA可分为Ⅰ、Ⅱ、Ⅲ、Ⅳ四种。果蝇的卫星DNA顺序已经搞清楚,可分为三类,这三类卫星DNA都是由7bp组成的高度重复顺序:卫星Ⅰ为5'ACAACT3',卫星Ⅱ为5'ACAAATT3'。而蟹的卫星DNA为只有AT两个碱基的重复顺序组成。
复杂单位顺序
这种重复顺序为灵长类所独有。用限制性内切酶HindⅢ消化非洲绿猴DNA,可以得到重复单位为172bp的高度重复顺序,这种顺序大部份由交替变化的嘌呤和嘧啶组成。有人把这类称为α卫星DNA。而人的α卫星DNA更为复杂,含有多顺序家族。
功能
a.参与复制水平的调节反向序列常存在于DNA复制起点区的附近。另外,许多反向重复序列是一些蛋白质(包括酶)和DNA的结合位点。
b.参与基因表达的调控DNA的重复顺序可以转录到核内不均一RNA分子中,而有些反向重复顺序可以形成发夹结构,这对稳定RNA分子,免遭分解有重要作用.
c.参与转位作用几乎所有转位因子的末端都包括反向重复顺序,长度由几个bp到1400bp。由于这种顺序可以形成回文结构,因此在转位作用中即能连接非同源的基因,又可以被参与转位的特异酶所识别。
d.与进化有关不同种属的高度重复顺序的核苷酸序列不同,具有种属特异性,但相近种属又有相似性。如人的α卫星DNA长度仅差1个碱基(前者为171bp,后者为172bp),而且碱基序列有65%是相同的,这表明它们来自共同的祖先。在进化中某些特殊区段保守的,而其他区域的碱基序列则累积着变化。
e.同一种属中不同个体的高度重复顺序的重复次数不一样,这可以作为每一个体的特征,即DNA指纹
f.α卫星DNA成簇的分布在染色体着丝粒附近,可能与染色体减数分裂时染色体配对有关,即同源染色体之间的联会可能依赖于具有染色体专一性的特定卫星DNA顺序。
简介
中度重复序列大致指在真核基因组中重复数十至数万(<105)次的重复顺序。其复性速度快于单拷贝顺序,但慢于高度重复顺序。少数在基因组中成串排列在一个区域,大多数与单拷贝基因间隔排列。依据重复顺序的长度,中度重复顺序可分为两种类型。
短分散片段
(short interspersed repeated segments, SINES)这类重复顺序的平均长度约为300bp(〈500bp),它们与平均长度约为1000bp的单拷贝顺序间隔排列。拷贝数可达10万左右。如Alu家族,Hinf家族等属于这种类型的中度重复序列。
长分散片段
(Long interspersed repeated segments, LINES)这类重复顺序的长度大于1000bp,平均长度为3500-5000bp,它们与平均长度为13000bp(个别长几万bp)的单拷贝顺序间隔排列。也有的实验显示人基因组中所有LINES之间的平均距离为2.2kb,拷贝数一般在1万左右,如KpnⅠ家族等。中度重复顺序在基因组中所占比例在不同种属之间差异很大,一般约占10-40%,在人约为12%。这些顺序大多不编码蛋白质。这些非编码的中度重复顺序的功能可能类似于高度重复顺序。在结构基因之间,基因簇中,以及内含子内都可以见到这些短的和长的中度重复顺序。按本文的分类原则有些中度重复顺序则是编码蛋白质或rRNA的结构基因,如HLA基因,rRNA基因,tRNA基因,组蛋白基因,免疫球蛋白基因等。中度重复顺序一般具有种特异性;在适当的情况下,可以应用它们作为探针区分不同种哺乳动物细胞的DNA。
Alu家族
Alu家族是哺乳动物包括人基因组中含量最丰富的一种中度重复顺序家族,在单倍体人基因组中重复达30万-50万次,约占人基因组的3-6%。Alu家族每个成员的长度约300bp,由于每个单位长度中有一个限制性内切酶Alu的切点(AG↓CT)从而将其切成长130和170bp的两段,因而定名为Alu序列(或Alu家族)。Alu序列分散在整个人体或其他哺乳动物基因组中,在间隔DNA,内含子中都发现有Alu序列,平均每5kbDNA就有一个Alu顺序。已建立的基因组中无例外地含有Alu顺序。Alu顺序具有种的特异性,人的Alu顺序制备的探针只能用于检测人的基因组中的Alu序列。由于在大多数的含有人的DNA的克隆中都含有Alu顺序,因此,可以这样认为,用人的Alu序列制备的探针与要筛选的克隆杂交,阳性者即为含有人DNA克隆,阴性者不含有人DNA。序列分析表明人类Alu顺序是由两个约130bp的正向重复构成的二聚体,而在第二个单体中有一个31bp的插入序列,该插入序列在Alu家族的不同成员之间核苷酸顺序相似但不相同。每个Alu顺序两侧为6-20bp的正向重复顺序,不同的Alu成员的侧翼重复顺序也各不相同。Alu序列的5'端比较保守,但富含脱氧腺苷酸残基的3'端在不同的Alu成员中是有变化的。在相近的生物体中Alu家族在结构上存在相似性,一般认为灵长类基因组中的Alu顺序多为由两个130bp的正向重复组成的二聚体,而啮类动物则为由一个130bp左右的DNA片段组成的单体。Alu序列在不同的哺乳动物之间存在着一定的相似性,但其序列相差较大,不会产生交叉杂交。Alu顺序广泛散布于整个基因组的原因可能是由于Alu顺序可由RNA聚合酶转录成RNA分子,再经反转录酶的作用形成cDNA,然后重新插入基因组所致。也有人认为Alu序列两侧存在着短的重复顺序,使得Alu顺序很象转座子,因此推测Alu顺序可能也是能够移动的。这可能是它们在整个基因组中含量如此丰富,颁布如此广泛的原因之一。Alu家族的功能是多方面的,由于在许多核内不均一RNA(hnRNA)中含有大量的Alu顺序,而且,Alu顺序含有与某些真核基因内含子剪接接头相似的序列,因而,Alu顺序可能参与hnRNA的加工与成熟。Alu序列在人基因组中不寻常地大量存在,提示它与遗传重组及染色体不稳定性有关。最近发现在人的组织细胞中存在自然发生的染色体外双链环状DAN,被称为人类质粒(human plasmid),而这些质粒又毫无例外地含有Alu顺序。还有研究表明,Alu顺序中的某些区段有形成Z-DNA的能力。另外,Alu顺序可能具有转录调节作用。
KpnⅠ家族
KpnⅠ家族是中度重复顺序中仅次于Alu家族的第二大家族。用限制性内切酶KpnⅠ消化人类及其它灵长类动物的DNA,在电泳谱上可以看到4个不同长度的片段,分别为1.2,1.5,1.8和1.9kb,这就是所谓的KpnⅠ家族。KpnⅠ家族成员顺序比Alu家族更长(如人KpnⅠ顺序长6.4kb),而且更加不均一,呈散在分布,属于中度重复顺序的长分散片段型。尽管不同长度类型的KpnⅠ家族(称为亚类,subfamily)之间同源性比较小,不能互相杂交,但它们的3'端有广泛的同源性。KpnⅠ家族的拷贝数约为3000 ̄4800个,占人体基因组的1%,与散在分布的Alu家族相似,KpnⅠ家族中至少有一部份也是通过KpnⅠ顺序的RNA转录产物的cDNA拷贝的重新插入到人基因组DNA中而产生的。
Hinf家族
这一家族以319bp长度的串联重复存在于人体基因组中。用限制性内切酶HinfⅠ消化人体DNA,可以分离到这一片段。Hinf家族在单位基因组内约有50 100个拷贝,分散在不同的区域。319bp单位可以再分成两个亚单位,分别为172bp和147bp,它们之间有70%的同源性。
多聚家族
这一家族的基本单位是dT-dG双核苷酸,多个dT-dG双核苷酸串联重复在一起,分散于人体基因组中。已经发现,这个家族的一个成员位于人类δ和β珠蛋白基因之间,含有17个dT-dG双核苷酸组成的串联重复顺序。在人基因组中,dT-dG交替顺序达106拷贝,这些顺序的平均长度为40bp。人们推测,这样一个短的串联重复顺序可能是基因转变(gene conversion)或不等交换(unequal crossing-over)的识别信号。另外,这些嘌呤和嘧啶的交替顺序有助于Z-DNA的形成,在基因调节中可能起着重要的作用。中度重复顺序除了包括以上非编码区域外,许多编码区如rRNA基因,tRNA基因,组蛋白基因等在基因组中也多次重复,属于中度重复顺序。
rRNA基因
在原核生物如大肠杆菌基因组中,rRNA基因一共是七套;在真核生物中rRNA基因的重复次数更多。在真核生物基因组中18S和28S,rRNA基因是在同一转录单位中,低等的真核生物如酵母中,5SrRNA也和18S,28SrRNA在同一转录单位中;而在高等生物中,5SrRNA是单独转录的,而且其在基因组中的重复次数高于18S和28S基因。和一般的中度重复顺序不一样,各重复单位中的rRNA基因都是相同的。rRNA基因通常集中成簇存在,而不是分散于基因组中,这样的区域称为rDNA,如染色体的核仁组织区(nucleolus organizer region)即为rDNA区。18S和28SrRNA基因构成一个转录单位。从转录单位上转录下来的rRNA前体经过酶切成为18S和28SrRNA。在哺乳动物和两栖动物中,18S和28SrRNA之间一同被转录下来的间隔区经过加工成为5.8SrRNA(在大肠杆菌中该区含有tRNA序列)。rRNA前体的其它部份被降解成核苷酸。真核生物中每个转录单位约长7-8kb(在哺乳动物中长13kb),其中编码rRNA的部份占70-80%(哺乳动物中只占50%左右)。一个rRNA基因簇(rDNA簇)含有许多转录单位,转录单位之间为不转录的间隔区,该间隔区由21-100bp片段组成的类似卫星DNA的串联重复顺序。转录单位和不转录的间隔区构成一个rDNA重复单位。由于不转录的间隔区中类似卫星DNA的串联重复次数不一样,因此,在不同生物及同种生物的不同rDNA重复单位之间不转录间隔区的长短相差甚大。非洲爪蟾的rDNA簇中,由类似卫星DNA的重复序列交替排列构成。5'端为一固定长度的独特顺序;后面的重复区域是由97bp的重复单位组成;另外两个重复区域是由60bp或81bp的重复单位构成;由于每个重复区域中重复单位的重复次数在不同的rDNA重复单位中不一样,因而造成不同的不转录间隔区的长短不一。另外两个固定长度的区域称为Bam岛(因为这两个片段的分离是采用BamHI酶消化制备的)。Bam岛的后半部与转录单位前面的序列(含有启动子)相似;另外在60/81bp的重复区域中也有类似的序列。根据这些结构特点,有人认为不转录的间隔区可能在转录单位的转录起始中起着重要作用。rDNA的重复单位在许多动物的卵子形成过程中进行大量复制扩增,如爪蟾在扩增前有rDNA重复单位500个,在从卵母细胞前身(oocyteprecursor)发展到卵母细胞过程中(3周时间),rDNA的重复单位可扩增400倍,每个细胞核的核仁数增加到几百个。扩增rDNA的过程是采用滚环式复制方式在核仁区进行的,扩增的DNA不纳入到染色体中,而是包含在核区。卵母细胞成熟后,大量的rDNA由于失去了存在的意义而逐渐降解。在卵子形成的过程中rDNA大量扩增的目的,就是为了产生大量的rRNA,组装成核糖体,用于合成大量的蛋白质,以满足受精后发育的需要。在大多数真核细胞中5SrRNA基因和18S,28SrRNA基因不属于一个转录单位。5SrRNA基因在基因组中亦呈串联重复排列成基因簇。其结构在非洲爪蟾中研究得最为清楚。在爪蟾体细胞中5SrRNA基因约有500拷贝,而在卵细胞中5S基因可重复20000多次。这大概是为了和卵细胞中大量扩增的28S和18S基因相统一。在爪蟾中发现有几种5SrRNA基因。最主要的一种其结构形式与18S、28S基因相似,即5S基因与非转录间隔区相间排列,组成一个重复单位。每个重复单位的5'端是含有A-T丰富区的一段49bp长的G-C丰富区;下面跟是120bp的5SrRNA基因;后面又是一段 并不转录的序列,而且与前面的5S基因比较有9个点突变,因此称为这段基因为假基因(pseudo gene)。尽管假基因不被转录,但在5S基因簇中总是有等量的5S基因和它的假基因。
在卵细胞中还有一个次要的5SrRNA基因,与主要的5S基因在序列上有一定和差异,在结构上与主要的5S基因相似,但整个重复单位长只有350bp,而且间隔区与主要的5S基因完全不一样。
人类的rRNA基因位于13,14,15,21和22号染色体的核仁组织区,每个核仁组织区平均含有50个rRNA基因的重复单位。5SrRNA基因似乎全部位于1号染色体(1q42-43)上,每单倍体基因组约有1000个5SrRNA基因。tRNA基因的清确重复次数比较难以估计。在非洲爪蟾中约有300个拷贝由tRNAmet,tRNAphe,tRNATrp及其它tRNA基因组成的3.18kb的串联重复单位。而在人体单倍基因组中约有1000-2000个tRNA基因,为50-60种rRNA编码,每种平均重复20-30次。
组蛋白基因
组蛋白基因在各种生物体内重复的次数不一样,但都在中度重复的范围内。通常每种组蛋白的基因在同一种生物中拷贝数是相同的。鸡的基因组中组蛋白基因有10个拷贝,在哺乳动物中为20拷贝,非洲爪蟾为40拷贝,而海胆的每种组蛋白的基因达300-600拷贝。不同生物中组蛋白基因在基因组中的排列不一样,组蛋白基因没有一定的排列方式,而在拷贝数高的基因组中(>100拷贝),大部份组蛋白基因串联重复形成基因簇。
海胆发育早期五种组蛋白基形成一个重复单位,每种组蛋白基因之间是非转录间隔区,5个间隔区均不相同。这样的重复单位在整个基因组中重复300次以上,而且这些重复单位基本上是相同的。在海胆中,5种组蛋白基因的转录方向都是相同的,每种组蛋白基因独立的产生自己的mRNA。非洲爪蟾卵细胞5S基因重复单位包括一个基因和一个假基因。在三种不同的海胆中,其组蛋白基因重复单位中非转录间隔区在长度和序列上差异是很大的,尽管它们的组蛋白基因的长度和序列相差不多。实际上,在同一种海胆内不同的组蛋白基因重复单位之间,相应的非转录间隔区也不是完全相同的。另外,在海胆胚胎发育晚期,要由晚期组蛋白基因来编码组蛋白,该基因与上述的早期组蛋白基因有轻微的差异,但该组蛋白基因不成簇排列,整个基因组仅有10个拷贝,呈散在分布。
在果蝇和非洲爪蟾中,5种组蛋白也排成一个重复单位,也存在间隔区,而且组蛋白基因的转录方向不一样。多个重复单位也形成串联重复排列。进化到哺乳动物,组蛋白基因一般不再形成重复单位,而呈散在分布或集成一小群。尽管组蛋白基因在基因组中的排列和分布在不同生物之间相差甚大,但是所有组蛋白基因都不含内含子,而且在序列上相应的组蛋白基因都很相似,从而编码的组蛋白在结构上和功能上也极为相似。
基因组中存在大量重复序列用以编码组蛋白是有其重要意义的。DNA复制时,组蛋白也要成倍增加,而且往往在DNA合成一小段后,组蛋白马上就要与其相结合,这要求在较短的时间内合成大量的组蛋白,因而需要有大量的组蛋白基因存在。人体基因组中还有几个大的基因簇,也属于中度重复顺序长的分散片段型。在一个基因簇内含有几百个功能相关的基因,这些基因簇又称为超基因(Super gene),如人类主要组织相容性抗原复合体HLA和免疫球蛋白重链及轻链基因都属于超基因。超基因可能是由于基因扩增后又经过功能和结构上的轻微改变而产生的,但仍保留了原始基因的结构及功能的完整性。
(低度重复顺序)
单拷贝顺序在单倍体基因组中只出现一次或数次,因而复性速度很慢。单拷贝顺序在基因组中占50-80%,如人基因组中,大约有60-65%的顺序属于这一类。单拷贝顺序中储存了巨大的遗传信息,编码各种不同功能的蛋白质。目前尚不清楚单拷贝基因的确切数字,但是是有其在单拷贝顺序中只有一小部份用来编码各种蛋白质,其他部份的功能尚不清楚。
在基因组中,单拷贝顺序的两侧往往为散在分布的重复顺序。由于某些单拷贝顺序编码蛋白质,体现了生物的各种功能,因此对这些序列的研究对医学实践有特别重要的意义。但由于其拷贝数少,在DNA重组技术出现以前,要分离和分析其结构和顺序几乎是不可能的,现在人们通过基因重组技术可以获得大量欲研究的基因,并对许多结构基因进行了较为细致的研究。现在已经知道,真核生物的结构基因不仅在两侧有非编码区,而且在基因内部也有许多不编码蛋白质的间隔序列(intervening sequences),称为内含子(intron),而编码区则称为外显子(exon)。内含子与外显子相间排列,转录时一起被转录下来,然后RNA中的内含子被切掉,外显子连接在一起成为成熟的mRNA作为指导蛋白质合成的模板断裂基因含有外显子和内含子,转录成RNA后经过剪接切除内含子成熟为mRNA。
真核基因组的另一特点就是存在多基因家族(multi gene family)。多基因家族是指由某一祖先基因经过重复和变异所产生的一组基因。多基因家族大致可分为两类:一类是基因家族成簇地分布在某一条染色体上,它们可同时发挥作用,合成某些蛋白质,如组蛋白基因家族就成簇地集中在第7号染色体长臂3区2带到3区6带区域内;另一类是一个基因家族的不同成员成簇地分布不同染色体上,这些不同成员编码一组功能上紧密相关的蛋白质,如珠蛋白基因家族。在多基因家族中,某些成员并不产生有功能的基因产物,这些基因称为假基因(pseudo gene)。假基因与有功能的基因同源,原来可能也是有功能的基因,但由于缺失,倒位或点突变等,使这一基因失去活性,成为无功能基因。与相应的正常基因相比,假基因往往缺少正常基因的内含子,两侧有顺向重复序列。人们推测,假基因的来源之一,可能是基因经过转录后生成的RNA前体通过剪接失去内含子形成mRNA,如果mRNA经反复转录产生cDNA,再整合到染色体DNA中去,便有可能成为假基因,因此该假基因是没有内含子的,在这个过程中,可能同时会发生缺失,倒位或点突变等变化,从而使假基因不能表达。
在哺乳动物包括人体基因组中,存在着大量的非编码顺序,如前述的高度重复顺序,内含子,间隔DNA等。这些顺序中,只有很小一部份具有重要的调节功能,绝大部部分都没有什么特殊功用。在这些DNA序列中虽然积累了大量缺失,重复或其他突变,但对生物并没有什么影响,它们的功能似乎只是自身复制,所以人们称这类DNA为自私DNA或寄生DNA(parasite DNA)。自私DNA也许有重要的功能,但目前我们还不了解。