测序比对软件介绍,三代测序方法有哪些,三代测序应用
第三代测序及纠错软件原创总结:李海滨诺和福柯2017-12-21
在之前推出的一个微信中,已经介绍了第三代测序的离线数据《第三代全长转录组测序常见问题说明》。那么我们如何通过不同的软件和流程来处理数据,从而得到我们想要的高质量数据呢?随着第三代测序技术的发展,使用PacBio长序列制作大基因组的各种从头组装和改进,以及数据纠错方面的软件如雨后春笋般出现。今天我们就和大家一起盘点一下数据纠错方面的相关软件。
第三代单分子实时测序技术具有超长的阅读长度,无需PCR扩增,完美跨越高GC和高重复区,可直接获得全长转录本。但单碱基错误率较高,主要类型为插入和缺失。但是,有错误的碱基是随机分布的,可以通过算法纠正。
三代 PacBio 测序序列纠错:
PacBio ToCA[1]
PacBioToCA是PBcR中的自校正算法,专门用于三代自校正。纠错的核心本质是多序列比对。为了加速比对,使用MHAP算法(MinHash)通过比对短序列和长序列来计算高度精确的混合共有序列:提高了序列的精确度(80%到99.9%)。
图1帕比奥图卡误差校正原理
CCS[2]
CCS是一个校准过程。根据三代测序原理,转录本可以在ZMW(零模波导孔)中循环测序。一个周期后,可以再次测量转录物的正链和互补链。两个循环后,转录物的正链和互补链可以被测量两次。因为SMRT的序列错误率是均匀分布的(GC区不存在所谓的更高的错误率),所以在ZMW测序得到的重复序列是可以自我纠正的。
图2 CCS误差校正原理
Quiver Arrow[3]
箭图是基于条件随机场方法的传统共识模型,可以使基因组装的准确率接近Q60(百万分之一基数误差)。事实证明,箭筒很难训练和开发,所以它正在被淘汰,以支持新的模式。Arrow是一种改进的一致性模型,它基于一种更直接的隐马尔可夫模型方法。箭筒现在支持PacBio RS数据,而Arrow支持使用P6-C4试剂的PacBio Sequel和PacBio RS数据。
Sparc Pbdagcon[4]
一种基于有向无环图编码多序列比对的序列一致性算法。它使用blasr的比对信息将序列与“主链”序列进行比对。基于底层对齐的有向无环图(DAG ),它将能够使用从中读取的新信息来找到短序列和“主链”序列之间的差异,然后将动态规划过程应用于DAG,作为一致的最优碱基序列。新的一致性可以用作新的主链序列,以迭代地提高一致性。当开发代码来处理PacBio原始序列数据时,该算法可用于一般共识的目的。目前只是作为FASTA输入。对于较短的读取序列,您可能需要调整blasr对齐参数以获得正确对齐的字符串。最初的图形算法依赖于纯python实现,然后使用cython来加速。
Proovread[5]
通过迭代短读共识进行大规模高精度的PacBio纠错。
Proovread 软件原理实现分为三步[6]:
步骤1:将第二代短阅读与错误的和嵌合的长阅读进行比较;
第二步:错误率高的区域二代阅读少,这样在生成修正共有序列的过程中,大部分错误位点会被替换,潜在的嵌合位点也能被检测出来。新的基础质量分数从第二代读数的覆盖范围和共有序列的组成中获得。
步骤3:最后,输出处理后的读数和嵌合体注释信息。
具有以下优势:
它可以在普通计算机和集群上运行。
可应用于不同场合(基因组、转录组)
不损失准确性、长度和数据量。
图3校对纠错原理
LoRDEC[7]
LoRDEC是一个纠正第三代测序长阅读长序列的阅读错误的程序。
LoRDEC软件原理实现分为三步[8]:
第一步:LoRDEC首先利用二代数据构建deBruijn图(DBG),存储在GATB库中;
其次,参考构造的DBG图,将长读序列分为弱准确度的k-mer和强准确度的k-mer
第三步:然后依次改正每个三代长读。
因为构图和纠错都可以使用多线程,所以运行速度快。使用过滤的k-mer建立DBG图需要较少的存储空间。
独特之处:
效率高,可以在普通服务器甚至台式机/笔记本电脑上处理这些物种的读取数据集,包括真核生物或脊椎动物。
它采用了一种新的基于图的方法:构造一个简洁的DBG来表示短序列,通过遍历图中选定的路径为长序列的每个错误区域找到一个纠正序列。
图4 LoRDEC误差校正原理
LSC[9]
LSC是一个长读序列纠错工具。该方法具有校正速度快、灵敏度高、准确度高的优点。LSC是一个纯实现长阅读和长序列纠错算法。长阅读序列和高质量的短序列都被同步器压缩,然后压缩的短序列通过Bowtie 2与长序列进行比较,最后短阅读的一致序列将替换长阅读中的比较区域。
LSC 软件原理实现分为三步[10]:
第一步:SRs(短读)和LRs(长读)的HC转化,通过均聚物压缩对LRs和SRs中的序列进行转化,使每个均聚物被同类型的单个核苷酸取代,压缩后的长度不影响与LR的精确比对;
第二步:SR质量控制,LSC默认过滤掉少于40个‘非n’核苷酸或多于一个‘n’的压缩SR;
第三步:SR-LR比对,SR可以映射到LR,且只能替换或小indel是允许的;
第四步:误差校正,SR对齐后,将每个HC变换的LR与对应的SR对齐,然后根据来自对齐SR的共识信息修改LR,校正LR误差;
第五步:解压转化。
图5误差校正原理
Ectools[11,12]
一种新的混合纠错算法,其中长PacBio测序序列使用预先组装的Illumina序列进行纠错。输入的短读序列集作为主校正链。与短序列相比,将PacBio序列校正为预先组装的重叠群可以提供更多的子序列比对。
图6 EC工具与其他纠错软件的比较
本文简单总结了数据纠错中三代测序的软件,供大家学习交流(总结可能不全面,如果有好的推荐,在文章底部留言即可)。相信随着测序技术的快速发展,相应的数据处理软件会更加专业和丰富。
接下来,我们将继续以小专题的形式推送第三代测序数据分析相关软件,如可变剪切分析、APA预测、CDS预测、LncRNA分析等,敬请期待~
参考资料:
[1]http://tiramisutes.github.io/2016/08/27/PBcR.html
[2]https://circleci.com/gh/PacificBiosciences/GenomicCon-森苏斯
[3]https://github.com/PacificBiosciences/GenomicConse-恩苏
[4]https://github.com/PacificBiosciences/pbdagcon
[5]https://github.com/BioInf-Wuerzburg/proovread
[6] Hackl T,Hedrich R,Schultz J,等.通过迭代短读一致性进行大规模高精度PacBio校正[J].生物信息学,2014,30(21): 3004-3011。
[7]http://www.atgc-montpellier.fr/lordec/
[8] Salmela L,劲敌E. LoRDEC:准确高效的长读纠错[J].生物信息学,2014,30(24): 3506-3514。
[9]https://www.healthcare.uiowa.edu/labs/au/LSC/
[10]奥KF,安德伍德JG,李L,等.通过短读比对提高PacBio长读准确性[J].PloS one,2012,7(10): e46679。
[11]http://schatzlab.cshl.edu/data/ectools/
[12]https://github.com/jgurtowski/ectools