Kraken2:宏基因组快速物种注释神器

简介

kraken是基于k-mer精确比对,并采用最LCA投票结果快速宏基因组DNA序列进行物种注释的软件。

Kraken2:宏基因组快速物种注释神器

帮助文档:
https://github.com/DerrickWood/kraken2/blob/master/docs/MANUAL.markdown

软件安装

程序主要包括 和 两条命令,还依赖一些小程序和脚本。所有程序将安装于同一目录。如果安装后你移动安装文件格,需要修改脚本中的对应新的位置。

推荐conda安装,一条命令搞定

另一种安装方法:可选git或wget下载,不推荐

版本和升级

记录软件版本:

升级

Kraken2数据库

Kraken2数据库至少包括3个文件

  • hash.k2d: 物种地图,即所有序列与物种的数据库

  • opts.k2d: 数据库构建的信息

  • taxo.k2d: 数据库的分类学信息

以上文件为快速读取,全为二进制文件。
如果仅使用kraken2,除以上三个文件外,其它的文件在空间有限下可以删除。如果要使用bracken时,仍需保留其他文件,用于构建索引等。

标准数据库构建

需要下载50G数据,过程将消耗超100GB的空间。

此步下载数据>50GB,下载速度由网络决定。索引时间4小时33分,多线程最快35min完成

标准模式下只下载5种数据库:古菌archaea、细菌bacteria、人类human、载体UniVec_Core、病毒viral

个性数据库构建

更多数据库构建的参数,详见

kraken2的库类型包括:”archaea”, “bacteria”, “plasmid”, “viral”, “human”, “fungi”, “plant”, “protozoa”, “nr”, “nt”, “env_nr”, “env_nt”, “UniVec”, “UniVec_Core”

archaea bacteria plasmid viral human fungi plant protozoa nr nt env_nr env_nt UniVec

数据越多,需要的内存也多,请谨慎选择。

以下实例供参考

注:NCBI上的三个重要的数据库—NR/NT,Taxonomy和RefSeq。NR(Non-Redundant Protein Sequence Database)非冗余蛋白库,所有GenBank+EMBL+DDBJ+PDB中的非冗余蛋白序列,对于所有已知的或可能的编码序列,NR记录中都给出了相应的氨基酸序列(通过已知或可能的读码框推断而来)以及专门蛋白数据库中的序列号。NR库相当于一个以核酸序列为基础的交叉索引,将核酸数据和蛋白数据联系起来。NT(Nucleotide Sequence Database),核酸序列数据库,是NR库的子集。NCBI的分类数据库,包括大于7万余个物种的名字和种系,这些物种都至少在遗传数据库中有一条核酸或蛋白序列。其目的是为序列数据库建立一个一致的种系发生分类学。RefSeq(the reference sequence database,https://www.ncbi.nlm.nih.gov/refseq/ ).参考序列数据库,包含RefSeq_genomic(NCBI genomic reference sequences),RefSeq_protein(NCBI protein reference sequences)和RefSeq transpans(NCBI transpans reference sequences)具有生物意义上的非冗余基因,转录本和蛋白质序列,是经过NCBI和其他组织校正的数据库,使用人类基因命名委员会定义的术语,并且包括了官方的基因符号和可选的符号。[3]

序列分类

其它参数解析:

  • 多线程:—threads NUM

  • 快速操作:—quick 检索第一次匹配即停止;—min-hits 多个匹配结果才确定;

  • 序列过滤:分类—classified-out、末分类的—unclassified-out结果输出到文件

  • 输出结果:为标准输出,可|重定向,也可—output写入文件

  • 输入文件:默认为fasta,可—fastq-input指定为fastq

  • 输入压缩文件:—gzip-compressed or —bzip2-compressed

  • 输入文件自动检测:默认为自动检测,你可以帮忙指定类型 —fasta-input, —fastq-input, —gzip-compressed, and/or —bzip2-compressed

  • 双端数据:2开始检测双端数据了,  kraken2 —paired —classified-out cseqs#.fq seqs_1.fq seqs_2.fq

  • 输出物种名(ID)

  • 输出报告

  • 输出所有物种,方便样本合并比较(sort -k5,5n)

  • 输出metaphlan2格式

输出文件格式

Kraken标准输出格式

五列表

  1. C/U代表分类classified或非分类unclassifed

  2. 序列ID

  3. 物种注释

  4. 比序列注释的区域,如98|94代表左端98bp,右端94bp比对至数据库

  5. LCA比对结果,如”562:13 561:4”代表13 k-mer比对至物种#562,4 k-mer比对至#561物种

报告输出格式

包括6列,方便整理下游分析。

  1. 百分比

  2. count

  3. count最优

  4. (U)nclassified, (R)oot, (D)omain, (K)ingdom, (P)hylum, (C)lass, (O)rder, (F)amily, (G)enus, or (S)pecies. “G2”代表位于属一种间

  5. NCBI物种ID

  6. 科学物种名

自定义数据库

默认的数据库修改:names.dmp、nodes.dmp和*.accession2taxid。

—download-library 下载数据库

—add-to-library

—skip-maps 跳过某数据库

常用数据库

  • archaea: 古菌686M, RefSeq complete archaeal genomes/proteins

  • bacteria: 细菌47G, RefSeq complete bacterial genomes/proteins

  • plasmid: 质粒,RefSeq plasmid nucleotide/protein sequences

  • viral: 病毒262M, RefSeq complete viral genomes/proteins

  • human: 人3.1G, GRCh38 human genome/proteins

  • fungi: 真菌,RefSeq complete fungal genomes/proteins

  • plant: 植物,RefSeq complete plant genomes/proteins

  • protozoa: 原始动物,RefSeq complete protozoan genomes/proteins

  • nr: 非冗余蛋白库,NCBI non-redundant protein database

  • nt: 非冗余核酸库,NCBI non-redundant nucleotide database

  • env_nr: 非冗余环境蛋白,NCBI non-redundant protein database with sequences from large environmental sequencing projects

  • env_nt: 非冗余环境核酸,NCBI non-redundant nucleotide database with sequences from large environmental sequencing projects

  • UniVec: 常用污染序列,如载体、头、引物等NCBI-supplied database of vector, adapter, linker, and primer sequences that may be contaminating sequencing projects and/or assemblies

  • UniVec_Core:载体核心库2M,用于去除污染序列, A subset of UniVec chosen to minimize false positive hits to the vector database

标准模式下只下载5种数据库:古菌archaea、细菌bacteria、人类human、载体UniVec_Core、病毒viral

我们可以手动下载指定数据库

下载后需要来建索引,nr和env_nr需要—protein参数, 而UniVec 和UniVec_Core不能用—protein选项

(可选)自行添加基因组,需要满足以下两点要求

  • fasta格式,可以多个文件

  • 必须包括NCBI物种ID,如>sequence16|kraken:taxid|32630  Adapter sequence

来源:刘永鑫Adam

声明:本站部分文章及图片转载于互联网,内容版权归原作者所有,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2021年1月2日
下一篇 2021年1月2日

相关推荐