一种基于三代PacBio测序数据的补洞方法

一种基于三代PacBio测序数据的补洞方法

技术领域

本发明涉及生物信息技术领域,具体涉及DNA组装的补洞方法,它使用三代PacBio 测序数据来进行基因组数据的补洞。

背景技术

三代PacBio测序以长读长著称,目前测序使用的P6-C4试剂,可使测序数据的平均 读长达到10-15k,并且测序没有明显的GC偏向性,理论上能很好地对基因组进行补洞。目前 基于三代PacBio测序数据补洞的软件,有PBjelly,但它是基于blasr比对软件的,由于 blasr软件比对速度非常慢,导致整个构建scaffold的时间也非常漫长。特别是对于大于1G 的基因组,测序深度大于10X的情况,通常需要耗费几个月的时间。

发明内容

本发明的目的是解决以上提出的问题,提出了一种基于三代PacBio测序数据的补 洞方法,大大降低了补洞过程中的比对时间,基因组补洞的速度得到明显提高。通过相应软 件,将三代PacBio测序数据比对上基因组中洞的两端,截取比对上的三代PacBio测序数据 的部分区域,并依据该数据所属的洞对截取的数据进行聚类,使用dazcon软件进行纠错,用 纠错后的数据进行序列连接。

本发明是通过以下技术方案实现的:

本发明是一种基于三代PacBio测序数据的补洞方法,所述补洞方法包括以下步 骤:

(1)从contig中提取unique-kmer;

(2)使用unique-kmer作为seed,进行比对,并截取比对上的区域;

(3)对比对上的区域进行聚类和纠错;

(4)使用纠错后的数据进行连接。

作为优化,在步骤(1)使用Jellyfish软件对二代Illumina测序数据进行k-mer统 计,把出现一次的k-mer作为unique-kmer,使用比特文件或GATB开源包,对这些unique- kmer进行存储。

作为优化,对于k≤17,使用一个大小为2G的比特文件(*.bit文件)来存储,而对于 k>17的情况,把unique-kmer存入GATB开源包中的(*.h5)文件中。

作为优化,所述步骤(2)包括以下步骤:

2.1使用unique-kmer作为seed;

2.2事先对seed的比对关系进行聚类,算出最优的比对范围;

如果两条read能比对得上,那么它们具有共线性,并且这些seed之间的斜率为1, 将聚到最多点的直线作为比对上的区域。

2.3分区域进行比对;

首先将比对的整体区域划分成100bp的小区域,假设划分为n个区域,共有a个碱 基,再对这些小区域进行LCS相似度计算,假设相似度大于0.8的区域有b个,这些小区域总 体的相似碱基为c个,分以下两个维度评价相似度:

区域相似度=b/n

碱基相似度=c/a

最后只保留两个评价相似度的值都大于0.7的比对数据。

作为优化,所述步骤(3)和(4)包括以下步骤:

3.1将比对上的区域前后延伸一定长度(可以设定为500bp)进行截取,并记录这个 区域所对应的洞;

3.2将截取的区域,按所属的洞进行聚类;

3.3对每一个聚类的数据使用dazcon软件进行纠错,再对数据进行连接。

与现有的软件相比,本方法的优点在于:

1、从contig中提取出unique-kmer,提高准确率,降低对比时间。

在基因组中,存在许多重复序列,有些短重复序列甚至出现成百上千次,从而会影 响比对软件的准确度,增加比对的时间。为了提高比对的准确度,降低比对时间,本法提取 在contig中只出现一次的k-mer,作为unique-kmer,在比对中只用unique-kmer作为比对使 用的seed。这里使用Jellyfish软件来进行k-mer统计,并筛选出unique-kmer。

2、将三代PacBio测序数据比对上基因组中洞的两端,并截取数据,节约内存,节约 对比时间,提高准确度。

很多比对方法,都使用了最长公共子序列(LCS)的算法,本法进行比对,也是使用 这个算法,但是做了以下三方面的改进:

1)使用unique-kmer作为seed

2)事先对seed的比对关系进行聚类,算出最优的比对范围。

如果两条read能比对得上,那么它们具有共线性,并且这些seed之间的斜率为1。 我们将聚到最多点的直线作为比对上的区域。

3)分区域进行比对。

大多比对软件都是直接对整体区域进行最长公共子序列(LCS)计算,但对于较大 的比对区域来说,例如大于100k的比对区域,对整体区域进行计算,不仅浪费内存而且会耗 费大量时间。本法所做的改进解决了以上问题,同时准确度也得到明显的提升。

对于进行比对的三代Pacbio测序数据,选取比对上的区域两端各自延伸一定长度 (通常设定为500bp)的部分进行截取,这样就可以保证三代PacBio测序数据与比对上的洞 两端的DNA序列有共同的区域。

3、对比对上的三代PacBio测序数据进行聚类,纠错并连接,节约纠错时间。

将上一步骤截取的数据依据各自所属的洞进行聚类,使用dazcon软件对每个洞的 聚类数据纠错,并依据纠错后的数据和洞两端的存在的共同序列,进行序列连接,完成补 洞。这样做的优点是只对洞的区域进行纠错,不必对整条序列进行纠错,从而大大地节约了 纠错时间。

附图说明

图1:本发明流程图。

具体实施方式

下面结合附图对本发明的实施例进行进一步详细说明:

实施例:

1、从contig中提取unique-kmer,在步骤(1)使用Jellyfish软件对二代Illumina 测序数据进行k-mer统计,把出现一次的k-mer作为unique-kmer,对于k≤17,使用一个大小 为2G的比特文件(*.bit文件)来存储,而对于k>17的情况,把unique-kmer存入GATB开源包 中的(*.h5)文件中。其中,将所有的数据打断成长度为k的片断称为k-mer,二代Illumina测 序数据是指通过Illumina公司测序仪获得的二代测序数据。

根据上述方法编写了程序,用法如下:

 

 

将contig路径,放入一个文件file.lst中

 

然后运行程序,来获取unique-kmer:

 

因为选取k=17,将结果存入比特文件中:k17.bit

2、使用unique-kmer作为seed,进行比对,并截取比对上的区域;

2.1使用unique-kmer作为seed;

2.2事先对seed的比对关系进行聚类,算出最优的比对范围;

如果两条read能比对得上,那么它们具有共线性,并且这些seed之间的斜率为1, 将聚到最多点的直线作为比对上的区域。

2.3分区域进行比对。

首先将比对的整体区域划分成100bp的小区域,假设划分为n个区域,共有a个碱 基,再对这些小区域进行LCS相似度计算,假设相似度大于0.8的区域有b个,这些小区域总 体的相似碱基为c个,分以下两个维度评价相似度:

区域相似度=b/n

碱基相似度=c/a

最后只保留两个评价相似度的值都大于0.7的比对数据。

3、对比对上的区域进行聚类和纠错,使用纠错后的数据进行连接。

3.1将比对上的区域前后延伸一定长度(可以设定为500bp)进行截取,并记录这个 区域所对应的洞;

3.2将截取的区域,按所属的洞进行聚类;

3.3对每一个聚类的数据使用dazcon软件进行纠错,再对数据进行连接。

根据上述比对和补洞的方法,讲比对和补洞方法写成一个流程,方便调用,用法如 下:

 

配制input.cfg的说明:

 

 

以上所述的仅是本发明的优选实施方式,应当指出,对于本技术领域中的普通技 术人员来说,在不脱离本发明核心技术特征的前提下,还可以做出若干改进和润饰,这些改 进和润饰也应视为本发明的保护范围。

来源:wangchuang2017

声明:本站部分文章及图片转载于互联网,内容版权归原作者所有,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2019年8月25日
下一篇 2019年8月25日

相关推荐