基于Connectivity Map数据库的小分子药物预测模型文献综述

 2022-11-03 22:11:57

文献综述(或调研报告):

药物开发领域对于完备的数据库和计算方法的需求逐日增加。Lamb[1][2]等人在2006年开发出了Connectivity Map(CMap)数据库。在基因组药物开发研究中,CMap的目标在于找到疾病/药物相关基因特征,并探究这些基因特征是否与小分子药物的反应产生的转录组水平的扰动有关。这是通过比较疾病和药物的细胞层面的特征如基因表达量找到药物-疾病的互逆关系。CMap运用的方法首先通过比较疾病样本和正常组织产生疾病基因表达特征,然后查询疾病-基因表达参考数据库。因为CMap不需要详细的作用机制(MoA)或药物靶标的先验知识,所以CMap这项技术在药物开发领域广泛流行且具有很大优势。

CMap的主要工作流程是,首先感兴趣的表型如疾病由基因表达特征表示,基因表达特征即一组能特定代表潜在表型的基因。基因表达特征对应于差异表达基因(DEG)的列表,用h表示,其中包含了上调和下调基因。这个基因表达特征集随后用来查询CMap数据库中的基因表达谱集合。CMap数据库是由代表一系列结构化微阵列实验的成对表达谱组成的。在Build 01和Build 02版本中,所有实验都是使用微阵列平台(具有22,277个探针组的Affymetrix HG_U133A和具有22,283个探针组的Affymetrix HT_HG_U133A阵列)进行的,并利用MAS5.0进行标准化预处理。实验是利用不同浓度的药物或生物活性小分子对5种细胞系进行处理,形成对照组,利用微阵列表达谱分析得到细胞在药物或小分子处理后的表达谱差异。初始数据库(Build 01)包含了455个实例即控制对照组,其中包括了165种药物,42种不同的浓度,2种持续时间长度和5种细胞系。而更新后的版本 (Build 02)包含了6,100个实例,其中有1,309种药物,156种不同的浓度和5种细胞系。预处理后,得到探针组的数据需要进行进一步分析(将处理组的值与对照组的值比较,并进行阈值处理)。对于每个实例,针对处理组和控制组的探针集的表达差异倍数(fold change)进行排序。

虽然CMap数据库是分受欢迎,但是它对于药物和细胞系的小覆盖度限制了它的实用性。该数据库只有对5种细胞系的1,309种药物的处理,与真正的基因组规模资源相比缺乏丰富性,缺少化学扰动和遗传扰动的多样性。因此,CLUE团队开发出一种新型的基于转录组表达减少的基因表达谱分析方法。这种方法称为L1000[3],其具有高吞吐量和低成本的优点,十分适合用于提高CMap数据的规模。作为LINCS计划的一部分CLUE团队已经利用这种方法产生了第一批1,319,138个表达谱。他们将药物的种类增加到19,811种,其中包括功能化合物,筛选文库化合物,已知作用机制或NIH分子库提名的化合物。在进行6或24小时处理后,每种化合物一式三份进行表达谱分析。同时L1000版本也增加了细胞系的种类。注释良好的遗传和小分子扰动在9中核心细胞系中分析,而未知作用机制(MoA)小分子药物则在3~77种细胞系中进行分析。CLUE团队从42,080个扰动(19,811个小分子化合物,18,493个shRNA,3,462个cDNA和314个生物制剂)中产生了1,319,138个L1000分析谱,共有473,647个表达特征。比原有CMap数据库的数据量增加了超过1,000倍。

Molecular Descriptors分子描述符是逻辑和数学过程的最终结果,该过程将在分子的符号表示内编码的化学信息转化为一串有用的数字[5]。通过计算分子描述符,能够以数学的方式表示小分子,进行计算机运算。分子描述符在化学、制药科学、环境保护、健康研究和质量控制等领域中发挥着重要作用,其用于预测分子的生物和物理化学性质(QSAR/QSPR)以及用于分子库的虚拟筛选。DRAGON软件的第一个版本是由Milano Chemometrics和QSAR Research Group于1994年开发的[6],该软件能够将用户提供的分子信息(SDF/JSON/XML文件)进行数学运算转化为分子描述符。目前Dragon 7.0能够计算得到5,270种分子描述符。

近年来,深度循环神经网络(Recurrent Neural Networks, RNNs)使研究人员能够解决自然语言处理领域中各种机器学习的问题。循环神经网络常运用于机器翻译,命名实体识别,情感分析等问题研究中。DNA,RNA序列,也是碱基ATCG的序列,因此对于基因序列的分析也可以参考自然语言处理,应用循环神经网络。Alipanahi等人在2015年提出了一个名为DeepBind模型[7],其能够预测DNA和RNA结合蛋白的序列特异性。DeepBind模型基于深度卷积神经网络(Convolutional Neural Networks)建立,及时序列中特定patterns的位置位置,也可以发现新的patterns。Quang等人在2016年提出了基于DeepBind的混合卷积网络和循环网络以分析DNA序列的模型DanQ[8],他们在卷积神经网络的基础上加入了双向长短记忆循环神经网络,用于从序列中预测非编码区域的功能。其中卷积层发现调节模式,循环曾发现这些模式之间的长期依赖关系,以便学习调控“语法”以改进预测效果。

  1. Lamb, Justin, et al. 'The Connectivity Map: using gene-expression signatures to connect small molecules, genes, and disease.' science 313.5795 (2006): 1929-1935.
  2. Lamb, Justin. 'The Connectivity Map: a new tool for biomedical research.' Nature reviews cancer 7.1 (2007): 54.
  3. Subramanian, Aravind, et al. 'A next generation connectivity map: L1000 platform and the first 1,000,000 profiles.' Cell 171.6 (2017): 1437-1452.
  4. Musa, Aliyu, et al. 'A review of connectivity map and computational approaches in pharmacogenomics.' Briefings in bioinformatics 19.3 (2017): 506-523.
  5. Todeschini, Roberto, and Viviana Consonni. Handbook of molecular descriptors. Vol. 11. John Wiley amp; Sons, 2008.
  6. Mauri, Andrea, et al. 'Dragon software: An easy approach to molecular descriptor calculations.' Match 56.2 (2006): 237-248.
  7. Alipanahi, Babak, et al. 'Predicting the sequence specificities of DNA-and RNA-binding proteins by deep learning.' Nature biotechnology 33.8 (2015): 831.
  8. Quang, Daniel, and Xiaohui Xie. 'DanQ: a hybrid convolutional and recurrent deep neural network for quantifying the function of DNA sequences.' Nucleic acids research 44.11 (2016): e107-e107.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。