学习使用一款数据质控软件(Trimmomatic)

写在前面

Trimmomatic工具是用于illumina二代测序数据的reads处理,主要对接头(adapter)序列和低质量序列进行过滤。下面是使用该工具处理双端测序(PE)数据时,常用参数的一些说明。

参考文档

  • Trimmomatic工具的参考文献
  • Trimmomatic工具官网
  • Trimmomatic工具使用手册

软件使用

  • 执行命令

  • 参数说明

    设置使用trimmomatic处理双端数据,单端数据用(‘SE’)
    设置线程数为16
    设置碱基的质量格式(默认-phred64,自v0.32版本之后可自动识别是phred33还是phred64)
    设置trimmommatic工具处理的日志文件为’trim.log’,每两行为一对reads信息

    • 生成的日志文件’trim.log’包含5列信息:

    输入的forward正向链R1对应的fastq文件
    输入的reverse反向链R2对应的fastq文件
    处理后输出的R1对应reads成对fastq文件
    处理后输出的R1对应reads不成对的fastq文件
    处理后输出的R2对应reads成对fastq文件
    处理后输出的R2对应reads不成对的fastq文件
    切除illumina接头参数设置。说明的各参数之前,先解释一下要使用的两种切除接头的模式和比对分值计算方法

    1. , simple模式,它可用于切除任何序列(any technical sequence, 暂且称之为)。该模式的方法是将直接与一条read进行比对(局部比对),将进行下面4个步骤(情形):

      Palindrome mode

      再说明一下比对分值的计算方法:

      下面是的各参数说明:

    设置滑动窗口阈值,以为为窗口,这5bp碱基的平均质量值低于,要进行切除
    设置从reads起始开始,去除质量低于阈值或为的碱基,直到达到阈值不再去除,这里设置阈值为
    设置从reads末尾开始,去除质量低于阈值的碱基或为的碱基直到达到阈值不再去除,这里设置阈值为,这种方法是去除特定的illumina平台低质量区域(由于illumina会将低质量碱基标记为2),官方操作文档中建议使用 或 代替[这里未给出MAXINFO参数说明] )
    设置read切除后的最短长度,这里设置长度至少为,长度小于36bp的reads被去除

来源:青灯照颦微

声明:本站部分文章及图片转载于互联网,内容版权归原作者所有,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2019年5月21日
下一篇 2019年5月21日

相关推荐