- 课题研究背景
近几年,大数据迅速发展成为科技界和企业界甚至世界各国政府关注的热点。在过去20年间, 数据产生速度越来越快。据国际数据公司IDC报道,2011年产生和复制的数据量超过1.8 Z字节,是过去5年数据增长的9倍,并将以每两年翻倍的速度增长。其次,大数据中隐藏着巨大的机会和价值,将给许多领域带来变革性的发展。《Nature》和《Science》等相继出版专刊专门探讨大数据带来的机遇和挑战。著名管理咨询公司麦肯锡称:“数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于大数据的挖掘和运用,预示着新一波生产力增长和消费盈余浪潮的到来”。美国政府认为大数据是“未来的新石油”,一个国家拥有数据的规模和运用数据的能力将成为综合国力的重要组成部分。对数据的占有和控制将成为国家间和企业间新的争夺焦点。大数据已成为社会各界关注的新焦点,“大数据时代”已然来临。
在化学和生物学领域,有一大批可以通过网络访问的高质量数据库。早在20世纪70年代,Margaret Dayhoff教授在蛋白进化领域中建立了Protein Sequence Database数据库(现名International Protein Information Resource, PIR);在20世纪80年代早期,Amos Bairoch教授开发了Swiss-Prot蛋白序列数据库,因而促进了GenBank、EMBL和DDBJ世界三大核算序列数据库的发展融合,并以此应对全世界范围快速增长的基因序列数据。然而,这些数据库大多使用传统的文件或者数据表的方式存储数据,有少数数据库使用了关系型数据库的方式存储数据。
- 课题研究意义
使用大数据相关技术设计并构建一个药物大数据平台,意义在于:
(1)为药学研究人员方便快捷地提供其研究过程中所需要的相关信息数据;
(2)在大数据平台的基础上,提供数据挖掘的功能,为研究人员的研究提供指导;
(3)为其他的数据库建设者提供相关案例和思路。
- 拟解决的问题
药物信息是药学研究人员进行科研不可或缺的信息,建设提供药学信息的应用服务是一件十分有意义的工作。药物数据本身具有数据量大的特点,使用传统的存储手段(文件或数据表等)难以准确描述信息的结构,同时对数据进行查询和分析也难以实现。使用大数据相关的技术来实现对药物信息的存储,可以向研究者提供方便快捷的查询和分析服务,为药学研究人员提供一个新的数据获取、数据分析的平台选择。
- 研究主要内容
- 搜集数据:从各个药物信息平台获取数据,或者使用爬虫技术获取需要的数据;
- 预处理:从获取得到的数据中筛选中需要的药物信息,将不同格式的数据标准化得到格式相同的数据;
- 设计数据存储模式:总结药物数据库各特征属性,按照数据特点进行数据库选型;
- 搭建数据存储平台:配置服务器集群,安装相应软件,按照数据库模式创建数据仓库;
- 实现门户网站:按照创建的数据库仓库,实现对应的门户网站,提供数据查询等功能。
- 研究方法和步骤
- 搜集数据和预处理:从DrugBank, The European Bioinformatics Institute, BioGRID, Cancer Cell Line Encyclopedia, FDA等平台获取数据,并整理出获取的数据的模式。从获取的数据中提取中与药物相关数据。
- 设计数据存储模式:根据提取的数据以及其模式,设计数据存储的模式,选择合适的存储,可用的选择包括但不限于:HDFS(文件存储),HBase(列存储),MongoDB(文档型数据库),MySQL(关系型数据库)。
- 搭建数据存储平台:准备数台服务器,使用高速网络相互连接,安装Linux操作系统,安装数据存储用的软件(JDK, Hadoop, MySQL等),配置服务器集群,将已经准备好的数据导入到平台中。
- 实现门户网站:使用.NET Core或Java技术设计并实现一个门户网站,可以对大数据平台中的数据进行查询等功能。
- 文献综述
- 药物研发领域的开放访问数据库
根据其在药物研发各个阶段中所起的作用,数据库大致可以分为以下几类:(1)提供基因组、核酸或蛋白序列信息的数据库,如GenBank、EMBL和DDBJ等;(2)提供生物大分子结构与分类信息的数据库,如PDB、PDBsum、PDBREPORT、SCOP和CATH等;(3)提供生物大分子结构信息和分析工具的数据库,如Relibase、PDBeMotif和Ligand-Expo等;(4)提供活性化合物信息及其生物活性测试结果的数据库,如PubChem、ChEMBL、ZINC、BindingDB和PDBbind-CN等;(5)提供化合物药代动力学、代谢性质和毒性数据的数据库,如DrugBank、HMDB、KEGG和admetSAR等。
- 大数据国外研究现状
早在2009年,联合国就启动了“全球脉动计划”,拟通过大数据推动落后地区的发展,而2012年1月的世界经济论坛年会也把“大数据,大影响”作为重要议题之一。在美国,2009年至今,Data.gov (美国政府数据库)全面开放了40万政府原始数据集,大数据已成为美国国家创新战略、国家安全战略以及国家信息网络安全战略的交叉领域和核心领域。2012年3月,美国政府提出“大数据研究和发展倡议”,发起全球开放政府数据运动,并投资2亿美元促进大数据核心技术研究和应用,涉及NSF,DARPA等6个政府部门和机构,把大数据放在重要的战略位置。英国政府也将大数据作为重点发展的科技领域,在发展8类高新技术的6亿英镑投资中,大数据的注资占三成。2014年7月,欧盟委员会也呼吁各成员国积极发展大数据。迎接“大数据”时代,并将采取具体措施发展大数据业务。例如建立大数据领域的公私合作关系;依托“地平线2020”科研规划,创建开放式数据孵化器;成立多个超级计算中心;在成员国创建数据处理设施网络。
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。