基于纳米孔测序数据的长序列分析方法研究文献综述

 2023-08-04 11:10:04
  1. 人类基因组的测量被用作评估DNA测序仪性能的测量尺度。目前三代测序技术有所改进,但能否高精度和高完整度来组装人类基因组仍具挑战性,这个问题是由长度(〜 3.1千兆),杂合度,基因组构成中50%以上的GC含量偏差,不同的重复家系和节段性重复区域(高达1.7 Mbp的大小)所引起。同时,染色体的近着丝粒,着丝粒,和近端着丝粒的短臂,其中含有3-10 MB的卫星DNA和串联重复长度更具挑战性。使用“ Illumina”等短读测序技术的从头测序对重复结构的处理力不从心,这样获取的数据虽然可以在非重复区域进行高度准确的基因分型,但不能提供连续的从头组装,从而限制了重建重复序列,检测复杂的结构变异以及完全表征人类基因组的能力。所以本次课题中选取Nanopore测序技术,Nanopore 的 MinION 是一款超小型的掌上测序仪,是一款比较成熟的产品,本次实验就基于此数据展开研究,同时,MinION和同类产品比也具有相对的优越性。

    单分子测序仪,例如Pacific Biosciences(PacBio),可以产生10 kb或更长的读长,而使得从头测序的人类全基因组测序变得更加容易。但是,与Illumina测序相比,单分子测序测序片段的错误率明显更高,这就需要开发从头测序算法,并使用长噪声数据与准确的短读结合以产生高质量的参考基因组。本次课题采用的MinION纳米孔测序仪提供给早期用户,因为最初的测序的输出被限制为500 MB到2 GB,MinION纳米孔测序仪仅被用于排序和组装微生物基因组或PCR产物的结果。但后来,真核生物基因组包括酵母菌,真菌和秀丽隐杆线虫的数据也相继被处理。

    近来,蛋白质孔(实验室进化的大肠杆菌 CsgG突变体,名为R9.4)中文库制备技术(一维连接和一维快速),测序速度(450个碱基/秒)和控制软件的改进得以提高了通量,因此,一个人的基因组的全基因组测序(WGS)仅使用MinION纳米孔来测序是可行的。

    Nanopore 测序技术,有效地解决了二代宏基因组测序技术在病原学诊断领域的缺陷, 与二代测序技术相比,纳米孔测序读长很长,能直接测定 1 Mb 以上的读长。纳米孔测序可以对单个 DNA 进行测序,而无需对样品进行 PCR 扩增或化学标记;而对于 RNA 测序而言,无需把 RNA 逆转录成 cDNA,节约了逆转录所需的操作和时间,大大降低测序的成本。

    1. 选题背景和意义:
    2. 课题关键问题及难点:

    对比二代测序仪Illumina获取的数据,已经有比较系统的分析步骤及教程方法,且无需对表观遗传进行处理。相比之下,三代测序数据的流程目前仍不明晰,本次课题中,将按照文献翻译的nature biotechnology文章中提到的Metrichor和Scrappie两项软件,针对三代数据进行处理。从basecalling,然后进行基因组组装,SV和CNV分型等工作。比较二代数据和三代数据之间准确度的差异,以及偏差的主要原因及减少偏差的方法。部分二代测序工具不能较好的处理三代测序数据,我将会采用graphmap、blast等工具进行处理。

    同时,和二代测序数据相比,三代测序的结果对于de novo拼接质量较好,所以会以从头测序的样本作为处理对象,而由于测序错误率高,需要用后期的处理来规避这一问题。而且目前多数实验室及科研单位,对于三代测序数据,采用和二代数据混用的方法,在本次课题中,我也会尝试采用二代测序数据来提高结果的质量。文献综述(或调研报告):

文献中讲述了研究基于MinION纳米孔对人GM12878 Utah/ Ceph细胞系的参考基因组进行测序和组装获得的结果,数据约有 30times;的理论覆盖率,同时采用基于参考的比对来检测大型结构变异和表观遗传修饰。这些超长测序片段邻接另外的5times;覆盖数据将有更好的连续性(NG50 〜6.4 Mb)。最终组装的基因组长度约为28.67亿个碱基,占参考序列的85.8%。结合补充的短读测序数据后,其组装精度超过了99.8%。超长测序片段可完整组装和定相4-Mb主要组织相容性复合体(MHC)基因座,进行端粒重复长度的测量以及人类参考基因组GRCh38中缺口的组装。

同时使用MinION纳米孔测序仪和新型计算方法-NanoSV分析了两名先天性异常患者的基因组,从新发现的chromothripsis重排证明了纳米孔长读优于短读。同时,MinION的长读对遗传变异(SNV和SV)进行有效的定相,对基因变异的有效分型,团队利用它来确定所有从头测序的染色体断裂点的亲本起源并解决了复杂的重排结构。另外,针对遗传性SV的全基因组测序揭示了短读数据集中遗漏的新变异,其中很大一部分是反转录转座子插入。

在另一篇文章中通过对M13基因组DNA的处理评估,从而优化了MinION纳米孔测序仪的性能,并使用期望最大化来获得可靠的最大似然估计,从而估计其插入,缺失和取代错误率(分别为4.9%,7.8%和5.1%)。获得的数据中,超过99%的高质量2D MinION读数以85%的平均同一性映射到参考序列。他们提出了一种单核苷酸变异检测工具,该工具使用最大似然参数估计值并在许多可能的测序片段比对中边缘化,以实现高达99%的准确率和召回率。通过将高信度比对策略与MinION的长读段配对,解析了人类染色体Xq24的一个未解析区域内的癌症-睾丸基因家族(CT47)的拷贝数。

在2015沙门氏菌在医院中爆发的事件中,最初使用Illumina MiSeq上的新型快速方案,通过全基因组测序研究了这种疫情。然后,团队将这些数据与来自监测测序的全基因组数据整合在一起,研究了牛津纳米孔技术公司最新发布的测序技术MinION在管理沙门氏菌的医院中的潜力。MinION可以在加载DNA文库后的几分钟内实时获取临床相关信息,MinION测序可在20分钟内自信地分配到物种级别。两种方法在不到半天的时间内就沙门氏菌暴发产生了可靠且可操作的临床信息,此类信息的快速可用性可能有助于进行更明智的流行病学调查并影响感染控制措施。

表明三代测序技术——纳米孔测序的可行性,以及优越性,并同Pacbio进行比较,获得的结果也表明了同样的观点。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。