【如何使用Jellyfish进行Kmer频数统计分析?】2022年版本

软件概述

将基因组等序列文件,按长度为K的字符串进行切割、归类以及频数统计。

软件安装

软件版本:2.3.0

软件使用

可以直接查看帮助文档:

接下来以大肠杆菌为例,对Jellyfish的使用进一步熟悉。

需要注意的几个问题:

  • jellyfish的输入文件格式不能为压缩状态

  • 的理解

(1)Kmer计数

对于-c参数和-s参数的描述:

-c:The counter field in the hash uses only 3 bits and the hash has at least 10 million entries.
-s:哈希表格的大小。当设置的哈希表格足够大,能够容纳所有的Kmer计数结果时,只有一个结果文件,但当哈希表格的entry数设置小了的话,就会有多个结果。

Jellyfish 2.0版本已经会自动合并结果了。

(2)输出文本Kmer计数结果

默认情况下,Jellyfish的结果文件使用哈希来对结果进行保存,那么如何输出文本格式的计数结果呢/p>

1、生成fasta格式的计数结果

结果展示如下:

2、按列存储信息 & 以TAB作为分隔输出Kmer计数结果

结果展示如下:

(3)输出Kmer频数分布

(4)查询特定Kmer频数

查询的速度是相当快的,比count过程快了太多。

(5)统计Kmer计数结果

输出结果如下:

参考资料

[1] https://github.com/gmarcais/Jellyfish/releases/tag/v2.3.0

额外

-C,canonical是什么含义/h4>

这部分需要针对数据类型来分析 —— 只有对自己的数据有一个好的理解,做出的分析才是可信的

对于fasta类型数据来说,这只是一条单链的DNA序列,本身就不存在的反向重复,因此在对其进行分析的时候,没有必要使用参数。

对于fastq类型数据来说,由于测序时将基因组DNA(当然也可以是RNA)打断之后,对2条链都进行了测序。

但是在进行基因组大小估计、选择亚基因组特异性Kmer等分析时,都是默认一条DNA序列的情况,因此在针对fastq类型的数据进行分析时,我们就需要加上参数。

基因组大小估计公式: G e n o m e S i z e = K n u m K d e p t h Genome Size = frac{Knum}{Kdepth} GenomeSize=KdepthKnum/span>

如上解释的参考资料:https://www.biostars.org/p/153170/

来源:陈有朴

声明:本站部分文章及图片转载于互联网,内容版权归原作者所有,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2022年4月9日
下一篇 2022年4月9日

相关推荐