GenBank数据库

更新时间：2024-03-17 00:28

GenBank 是一个有来自于70,000多种生物的核苷酸序列的数据库。每条纪录都有编码区（CDS）特征的注释，还包括氨基酸的翻译。GenBank属于一个序列数据库的国际合作组织，包括EMBL和DDBJ。

数据库

数据库包括序列文件

完整的GenBank数据库包括序列文件，索引文件以及其它有关文件。索引文件是根据数据库中作者、参考文献等建立的，用于数据库查询。GenPept是由GenBank中的核酸序列翻译而得到的蛋白质序列数据库，其数据格式为FastA。GenBank中最常用的是序列文件。序列文件的基本单位是序列条目，包括核苷酸碱基排列顺序和注释两部分。

结构及特性

介绍序列文件的结构

许多生物信息资源中心通过计算机网络提供该数据库文件。下面，我们介绍序列文件的结构。GenBank序列文件由单个的序列条目组成。序列条目由字段组成，每个字段由关键字起始，后面为该字段的具体说明。有些字段又分若干次子字段，以次关键字或特性表说明符开始。每个序列条目以双斜杠“//”作结束标记。

特性

序列条目的格式非常重要，关键字从第一列开始，次关键字从第三列开始，特性表说明符从第五列开始。每个字段可以占一行，也可以占若干行。若一行中写不下时，继续行以空格开始。[链接1.2.3.1.1-1]。

序列条目

关键词

序列条目的关键字包括LOCUS （代码），DEFINITION （说明），ACCESSION （编号），NID符（核酸标识），KEYWORDS （关键词），SOURCE （数据来源），REFERENCE （文献），FEATURES （特性表），BASE COUNT （碱基组成）及ORIGIN （碱基排列顺序）。先版的核酸序列数据库将引入新的关键词SV （序列版本号），用“编号.版本号”表示，并取代关键词NID。LOCUS （代码）：是该序列条目的标记，或者说标识符，蕴涵这个序列的功能。例如，图4.1中所示的HUMCYCLOX表示人的环氧化酶cyclooxygenase。该字段还包括其它相关内容，如序列长度、类型、种属来源以及录入日期等。

免责声明

隐私政策

用户协议

目录 22

0{{catalogNumber[index]}}. {{item.title}}