[更新中] NGS常见软件和数据库(偏肿瘤方向)

目录

  • 0. 基础环境
  • 1. 质控
    • trimmomatic
    • fastqc
  • 2. 比对 & 比对后处理
    • bwa
    • TMAP
  • 3. 变异识别(SNP/InDel)
    • samtools
    • gatk
    • bedtools
  • 4. 变异注释
    • 数据库
    • vep
  • 5. 常见流程框架用法
    • 5.1 脚本
    • 5.2 makefile
    • 5.3 Snakemake
    • 5.4 Bpipe
    • 5.5 Argo
    • 5.6 Cromwell (WDL)

本文主要介绍软件和数据库在基因检测中的应用,不追求对软件尽可能完整的介绍。
本文第1-3节介绍基因检测流程的主要环节;第4节介绍了流程搭建的常见框架。

0. 基础环境

  • 操作系统:ubuntu 18.04 LTS
  • (推荐)包和环境管理:miniconda(安装miniconda2)

1. 质控

trimmomatic

fastqc

2. 比对 & 比对后处理

该环节主要是将 reads 比对到参考基因组上。

bwa

  1. 简介
    建立 index。
    基于 BWT 算法,将 reads 比对到参考基因组。
    最新版本 bwa-mem2,Intel实验室对计算效率进行了优化。
  2. 编译安装
  1. 常见用法

TMAP

用于 IonTorrent 平台数据的短序列比对。

3. 变异识别(SNP/InDel)

samtools

使用 miniconda 安装

gatk

bedtools

4. 变异注释

数据库

人群数据库

数据库 简介
dbSNP
1000 Genomes Projects
ExAC

癌症数据库

vep

5. 常见流程框架用法

5.1 脚本

5.2 makefile

target:一个对象文件,可执行文件或标签。
prerequisites:生成该 target 所依赖的文件或 target 。
command:该 target 要执行的命令。

5.3 Snakemake

Snakemake 通过一系列 定义工作流。 包含 , , 等元素。

Snakemake 通过 和 确定工作流的依赖关系和执行顺序。

Snakefiles and Rules

5.4 Bpipe

bpipe 的基本单元是 , 使用 定义流程的执行顺序。

Bpipe Overview

5.5 Argo

argo 是基于 K8S CRD 实现的工作流工具。argo 通过一个 yaml 格式的配置文件来定义工作流。

Argo Exam

5.6 Cromwell (WDL)

Cromwell 示例

来源:子诚之

声明:本站部分文章及图片转载于互联网,内容版权归原作者所有,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2021年1月23日
下一篇 2021年1月23日

相关推荐