基于NoSQL的细胞器基因组数据库构建方法研究
摘要
细胞器基因组的研究是生物系统发育学中的重要研究内容,随着高通量测序技术的发展,细胞器基因组数据正在以指数形式增长,传统关系型数据库无法满足这些海量数据的存储和管理。然而支持海量数据,具有高可用性的高扩展性的NoSQL数据库的出现弥补了关系型数据库的不足。本文以NoSQL数据库的典型代表为例——MongoDB,对细胞器基因组数据库的构建展开了讨论与研究
关键词:细胞器基因组、关系型数据库、NoSQL、MongoDB
1 研究的目的与意义
在真核生物中,很多细胞器都有一套自己独立完整的基因组,这些基因组编码着与细胞产生能量相关的一系列的基因[1, 2]。由于核基因组的复杂性,基于全基因组的测序工作仅限于在基因组相对较小的模式物种,如拟南芥,果蝇,水稻等。但是线粒体和叶绿体都有自己的遗传系统,它们的基因组与核DNA相比较小且序列变异相对迅速,使其在生物系统发育进化的研究中发挥着重要作用。目前,生物学家已经测序出8000 个完整线粒体DNA和1600 个叶绿体DNA序列[3],除了病毒,细胞器DNA构成了最大规模的完全测序的基因组系列,这使它们成为比较基因组研究的理想材料。所以我们需要开发专门的数据库来对各种基因组测序项目产生的大量数据进行存储和管理。
随着测序技术的不断发展,被测出的基因组序列数量将会呈指数形式增长。另一方面,互联网应用通常并不强调数据的一致性,允许一定短时间的数据不一致,延迟插入等情况的出现。因此,与传统的数据库进行对比,在构建基因组数据库上,我们选用的具有高性能、高可扩展性、高冗余性能特性的NoSQL数据库[4, 5]更具有优势。
2 国内外的研究概况
目前,世界上比较流行的细胞器基因组数据库主要有 美国国家生物技术信息中心(NCBI)网站的细胞器基因组资源(Organelle genome resources at NCBI)[3]、包含了所有已发表的线粒体和质体基因组编码的序列的数据库GOBASE[6]、关于完全测序的质体基因组数据库ChloroplastDB[7]和多细胞生物的线粒体基因数据库MitoZoa[8]等。然而这些数据库多采用传统的关系型数据库,在面对不断增长的海量基因组数据存储的容量需求以及数据的实时处理,一般的解决方案是分布式存储,不但扩展性差、效率低,数据的安全性也得不到保证,面临着对数据库的高扩展性和高可用性问题。
NoSQL[4]与关系型数据库相比,它们在架构和数据模型方面做了“减法”,在扩展和并发等方面做了“加法”。所以NoSQL的出现,弥补了在某些方面关系型数据库的不足,得到了越来越多的应用。目前Google推出的用来处理海量数据分布式存储的BigTable[9],已经在60多个产品和项目上得到应用。2009年,NoSQL在国内开始兴起,新浪微博是Redis[10]全球最大的用户,淘宝网使用HBase[11]存储数据,并自主研发了支持大数据的Oceanbase[12]来实现部分在线运用,视觉中国网站选用MongoDB[13]替换了原来的MySQL[14]为其支撑数据库等[15]。
3 主要研究内容
根据细胞器基因组研究的发展现状及NoSQL在海量数据存储上的优势,探讨其在基因组数据存储中的应用,解决目前系统的存储问题。
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。