基因组注释

更新时间:2023-02-09 14:01

基因组注释(Genome annotation) 是利用生物信息学方法和工具,对基因组所有基因的生物学功能进行高通量注释,是当前功能基因组学研究的一个热点。

概念

基因组注释的研究内容包括基因识别和基因功能注释两个方面。基因识别的核心是确定全基因组序列中所有基因的确切位置。从基因组序列预测新基因,现阶段主要是3 种方法的结合: (1) 分析mRNAEST数据以直接得到结果; (2) 通过相似性比对从已知基因和蛋白质序列得到间接证据[1] ; (3) 基于各种统计模型和算法从头预测。对预测出的基因进行高通量功能注释可以借助于以下方法,利用已知功能基因的注释信息为新基因注释: (1) 序列数据库相似性搜索; (2) 序列模体(Motif) 搜索; (3) 直系同源序列聚类分析(Cluster of orthologousgroup ,COG) [2] 。随着微生物全基因组序列测定速率的加快,开发有Web 接口的高效、综合基因组注释系统十分必要。近年来,国际上已有一些这样的工具,如基于Java 的微生物基因组数据库接口。尽管JMGD 提供了一个很好的图形化接口程序,却并不具有基因组自动注释功能。德国国家环境和健康研究中心开发的蛋白质摘录、描述和分析工具(Protein extrac2tion , description , and analysis tool ,PEDANT) 是大型基因组分析系统,整合了大量基因组功能信息和结构信息。PEDANT 注释功能强大[3] ,适用范围广,但没有便于操作的图形界面,而且需要较强的硬件系统支持。微生物基因组全序列测定通常由中小实验室独立完成,有必要开发和集成基于PCPLinux 系统并以免费数据库管理系统、免费软件和公共数据库资源为主的基因组信息注释系统。

系统方法

111  开发环境

本系统基于PC 微机,操作系统为Linux。测试系统为PIII 550 双CPU 微机,内存1GB ,运行RedHat 710 Linux 系统。数据库管理系统使用MySQL ,Web 服务器程序使用Apache ,应用程序接口用Perl 脚本语言编写。本系统也可在单CPU 微机上运行,内存不小于512MB。所有系统软件和应用软件均可以从Internet 网上免费获得。

112  测试数据

本系统用蓝细菌( Synechococcus sp. ) PCC7002 基因组初步拼接所得最大重叠连续群(Contig) 作测试数据,共3 03247bp 。

113  MGAP 的基因组注释系统

基因组注释系统是MGAP 的核心,整合了许多常用的基因识别蛋白质功能预测软件,包括GeneMarks、IPRsearch、BLASTPGP 和FASTA3 等,以及多个数据库,如非冗余蛋白质序列数据库(Non redundant , NR) 、已知三维空间结构蛋白质序列数据库(PDBSeq) 、国际蛋白质资源信息系统( InterPro) [6] 和直系同源蛋白质家族数据库(Cluster of orthologousgroups ,COG) 等,编写了相应的模块进行自动操作,并把每一步注释结果导入数据库中。MGAP 整合的一般模块,可以被其他任何一种微生物基因组直接使用。不同实验室可根据实际研究需要,增加相应模块或数据,如蓝细菌Anabaena sp. strain PCC 7120 的蛋白质序列库等。

基因识别是MGAP 的第一步,本系统采用微生物基因组基因识别最为权威的Gene2Marks 软件进行基因预测,通过http :PPopal .biology.gatech.eduPGeneMarkPgenemarks. cgi 网站提交重叠连续群测试序列(3 03247bp) ,使用GeneMarks 缺省参数,预测得到279 个基因。

然后用MGAP 的数据加载模块(Loaddata) 将预测结果导入ORF 表中。

114  MGAP 的用户接口

用户接口用于展示注释结果,提供易于操作和分析平台。本系统用户接口基于Web设计开发,用户可通过浏览器访问基因组注释系统,包括基因组环状图展示、基因和ORF在染色体上分布图,并对注释信息进行检索。基因组环状基因分布图构建基于如下信息:预测所得基因的起始位置、长度,编码基因的正负链信息,以及预测的基因功能分类。

2  结果

MGAP 系统对PCC7002 基因组重叠连续群测试序列注释结果。A 为基因展示图,B 为ORF 显示页面。A 中由外向内依次为: (1) 正链编码基因; (2) 负链编码基因; (3)GC 含量统计; (4) GC 偏离量统计。该系统构建的环状基因组,可显示正负链上的编码基因,用相应颜色表示功能类别。本系统沿用经典蛋白质功能分类方法[8] ,即把微生物基因组所有基因按功能分为16 大类,进而细分为113 个子类。此外,还增加了统计GC 含量和GC 偏离量(GC Bias) 功能。计算GC 含量时以200bp 为滑动窗口,计算GC 偏离量时以13kb 为滑动窗口。GC 偏离量表示G和C 含量的差别,定义为: (G2C)P(G+ C) [9] 。点击A图中环状基因组展示图,则可得到B 图基因组局部ORF 显示页面。点击图中某个ORF ,即可调出其所有注释信息,包括该ORF 在基因组中的位置、长度、正负链信息、核酸和蛋白序列,以及对NR 蛋白库、COG数据库、InterPro 、PDBseq 数据库的搜索结果。所有结果都有相对应的连接可以直接连到原始数据库。

3  讨论

新基因组功能注释是基因组研究的重要方面,MGAP 把注释所用软件和公共数据库进行有机集成,使注释过程自动进行并把结果存储到数据库系统中,最终提供友好的界面,可为中小实验室提供方便实用的微生物基因组注释系统,减少人工参与,提高注释效率。该系统考虑到国内一般中小实验室的实际情况,基于廉价的PC 微机和免费Linux、MySQL 、Apache 和Perl 等软件系统开发

必须指出,所有计算机注释信息,均不能保证完全准确。MGAP 在一定程度上依赖于现有数据库中的注释信息。由于各种原因,这些注释信息必然有一些错误。显然,这些错误信息将不可避免地引入新的注释系统。为此,MGAP 综合了多种注释方法,并互为补充。例如,一个ORF 既有BLASTP从NR 数据库搜索到的相似序列,又在InterPro 蛋白质模体库中找到相应功能位点,也可找到高分匹配的COGs ,那么该注释结果就比较可靠。此外,必要的人工注释,可以避免或纠正自动注释的错误。例如,由于测序错误产生的读码框移位或是缺失,会导致一个基因被拆分成两段,这种错误只能由手工纠正。基因组注释是一个复杂、繁琐的过程,需要大量的生物学知识。详尽、准确的注释需要经过严格的生物学实验才能获得。本系统对测试序列的注释结果仍有许多未知功能基因,需不断扩充新数据而逐步更新。MGAP 的新版本将增加交互式用户注释模块,进一步扩充和增强该系统注释功能。

免责声明
隐私政策
用户协议
目录 22
0{{catalogNumber[index]}}. {{item.title}}
{{item.title}}