【如何使用Jellyfish进行Kmer频数统计分析？】2022年版本

软件概述

将基因组等序列文件，按长度为K的字符串进行切割、归类以及频数统计。

软件安装

软件版本：2.3.0

软件使用

可以直接查看帮助文档：

接下来以大肠杆菌为例，对Jellyfish的使用进一步熟悉。

需要注意的几个问题：

jellyfish的输入文件格式不能为压缩状态
的理解

（1）Kmer计数

对于-c参数和-s参数的描述：

-c：The counter field in the hash uses only 3 bits and the hash has at least 10 million entries.
-s：哈希表格的大小。当设置的哈希表格足够大，能够容纳所有的Kmer计数结果时，只有一个结果文件，但当哈希表格的entry数设置小了的话，就会有多个结果。

Jellyfish 2.0版本已经会自动合并结果了。

（2）输出文本Kmer计数结果

默认情况下，Jellyfish的结果文件使用哈希来对结果进行保存，那么如何输出文本格式的计数结果呢/p>

1、生成fasta格式的计数结果

结果展示如下：

2、按列存储信息 & 以TAB作为分隔输出Kmer计数结果

结果展示如下：

（3）输出Kmer频数分布

（4）查询特定Kmer频数

查询的速度是相当快的，比count过程快了太多。

（5）统计Kmer计数结果

输出结果如下：

参考资料

[1] https://github.com/gmarcais/Jellyfish/releases/tag/v2.3.0

额外

-C，canonical是什么含义/h4>

这部分需要针对数据类型来分析 —— 只有对自己的数据有一个好的理解，做出的分析才是可信的。

对于fasta类型数据来说，这只是一条单链的DNA序列，本身就不存在的反向重复，因此在对其进行分析的时候，没有必要使用参数。

对于fastq类型数据来说，由于测序时将基因组DNA（当然也可以是RNA）打断之后，对2条链都进行了测序。

但是在进行基因组大小估计、选择亚基因组特异性Kmer等分析时，都是默认一条DNA序列的情况，因此在针对fastq类型的数据进行分析时，我们就需要加上参数。

基因组大小估计公式： G e n o m e S i z e = K n u m K d e p t h Genome Size = frac{Knum}{Kdepth} GenomeSize=KdepthKnum/span>

如上解释的参考资料：https://www.biostars.org/p/153170/

来源：陈有朴

声明：本站部分文章及图片转载于互联网，内容版权归原作者所有，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！