序列数据库是分子生物信息数据库中最基本的数据库,包括
核酸和“
蛋白质”两类,以
核苷酸碱基顺序或氨基酸残基顺序为基本内容,并附有注释信息。
序列数据库的注释信息包括两部分,一部分由
计算机程序经过序列分析由计算机程序生成,另一部分则依靠生物学家通过查阅文献资料而获得。
序列数据库早期的数据主要由数据录入人员通过查阅文献杂志搜集,或者由科研人员用磁盘、电子邮件方式向国际生物信息数据库中心递交。数据中心对搜集到的序列数据进行整理、维护,并定期通过磁盘、磁带和光盘方式向全世界发布。
序列数据库的序列数据来自
核酸和
蛋白质序列测定,随着基因组大规模测序计划的迅速开展,序列数据库特别是核酸序列数据库的数据量迅速增长,数据来源主要集中于国际上几大著名的测序中心,如位于英国剑桥南郊基因组园区的Sanger Centre,
美国华盛顿大学基因组研究中心等。
1999年我国参加国际
人类基因组研究项目,已经于于2000年4月按计划完成人类基因组1%序列的测定。