宏病毒组分析常见的分析软件

病毒是地球上数量最多的生物实体,其中细菌病毒(即噬菌体)约有1031个类群,从海洋到陆地再到人体几乎都是它们的栖息地。研究者将病毒视为调节人类生态系统的重要成员,人体内主要包括真核病毒和噬菌体,包括双链DNA (double-stranded DNA, dsDNA),单链DNA (single-stranded DNA, ssDNA)和RNA病毒。随着对病毒研究的广泛开展,“病毒组”与“病毒组学”的概念也应运而生,这些术语分别涵盖了栖息在生态系统中的所有病毒及其基因组和对它们的研究(Lefkowitz EJ, et al, 2017)。根据病毒不同的特征进行分类,包括病毒的宿主范围;病毒的形态学;病毒的基因组大小;病毒的核酸组成成分以及病毒的致病性。虽然所有的性状在病毒分类学的确定中都很重要,但目前利用平均核苷酸同源性(ANI)和系统发育关系进行序列比较被视为定义和区分病毒群类的主要标准。

此外,病毒也被发现潜伏在人类细胞内,如人类内源性逆转录病毒(human endogenous retroviruses, HERVs)等。一部分病毒已经失去了重新激活的能力(例如某些HERVs),另一部分可以重新激活但作为原病毒保留很长一段时间,其它部分则呈现周期性的动态循环(周期性产生病毒粒子并频繁感染) 。另一方面,噬菌体通过与我们体内细菌群落的相互作用,从而可以参与调节人体菌群,对细菌的部分功能基因进行储存,并通过与机体免疫系统的互作,促进免疫系统的成熟。已有大量研究致力于描述病毒群落的特征及它在塑造微生物群方面的作用,然而,不同于细菌和真菌,噬菌体或真核病毒并没有通用的标记基因可以将其作为一个整体进行研究,因此,并不能通过标签序列扩增子测序的手段进行相应的病毒群落解析。

1991年Schmidt(Schmidt TM, et al, 1991)首次提出的环境基因组学(Environmental genomics)被视为宏基因组学的前身,当时Schmidt等构建了世界上第一个海洋生物样本DNA的噬菌体文库,并从中发现了15种全新的细菌核酸序列。1998年,Handelsman等(Handelsman J, et al, 1998)提出研究特定环境样本中遗传物质的总和的课题,并将特定小生境中全部微小生物遗传物质的总和定义为宏基因组(Metagenome) 。2004年Handelsman (Handelsman J, et al, 2004)完整阐述了宏基因组学(Metagenomics)的概念,即以某一特定环境样本中的微生物群体基因组为研究对象,以功能基因筛选和序列测定分析为研究手段,以微生物多样性、种群结构、进化关系、功能活性、相互作用及其与环境之间的关系为研究目的的一种新的微生物研究方法。

宏病毒组学(Viral Metagenomics)是宏基因组学的一个分支,但与传统的宏基因组学概念不同,它是在宏基因组学概念的基础上,结合病毒自身的特点,将宏基因组学方法应用到病毒学领域而形成的。2002年,Breitbart等(Breitbart M, et al, 2002)将宏基因组学方法应用于海洋病毒群落的研究,发现噬菌体为海水中主要病毒组,这一研究标志着宏病毒组学正式应用于科学研究。

简而言之,宏病毒组学就是应用特殊方法把特定环境中所有病毒与其他微生物分开,然后提取的病毒核酸,用高通量技术进行病毒核酸测序,依托现有数据库进行相应的比对工作,并运用软件分析处理后最终得到研究样品中病毒群落的组成信息。

生物信息分析

介绍宏病毒组分析的常用软件之前,首先我们来看一下宏病毒组的基本分析流程。这里需要说明的是基于病毒颗粒分离技术及NGS测序平台的宏病毒组学研究还处于起步阶段,分析功能模块新的思路和技术层出不穷,但另一个层面,宏病毒组是宏基因组的一个分支,基本大的分析思路方面与宏基因组还是有着不小的相似之处。归纳一下,宏病毒组主要包括一下几个方面的分析内容:

病毒群落结构组成分析
病毒群落功能分析
病毒(特别是噬菌体)宿主预测
病毒与群落中细菌、古菌等其他微生物之间的互作网络
基于非数据库比对的新病毒序列的挖掘

下面是易基因科技的宏病毒组的基本分析流程:

宏病毒组分析常见的分析软件
图2:病毒注释结果graphlan结构图

样本病毒群落结构多样性分析

Alpha多样性是指一个特定区域或生态系统内的多样性,是反映丰富度和均匀度的综合指标。Alpha多样性主要采用Shannon index(Che LQ, et al, 2019)和Simpson index对样本的Alpha多样性指数进行计算,并统计差异显著性,使用软件为R包vegan。不同于alpha多样性指数,Beta多样性用于不同生态系统之间多样性的比较,也就是样品间的差异。Beta多样性利用各样本序列间的进化关系及丰度信息来计算样本间距离,反映样本(组)间是否具有显著的微生物群落差异。主要使用Jaccard index和bray index来评估样本间的Beta多样性,利用的软件是R包vegan。利用Beta多样性指数进行非度量多维尺度(NMDS)分析。这些工作都可以通过R语言脚本轻松完成。

样本病毒群落结构组间差异分析

组学数据的组建差异分析软件较多,为了研究组间具有显著性差异的病毒种类,从不同taxonomy层级的病毒丰度表出发,利用 Metastats软件或者STAMP软件对组间的病毒丰度数据 进行假设检验得到 p 值,根据p值筛选具有显著性差异的物种,并绘制差异物种在组间的丰度分布箱图。如果是分组情况较为复杂,希望多组比较筛选组间具有显著差异的物种Biomarker,可以采用LEfSe软件(Hill NM, 2011)进行相关工作。首先通过秩和检验的方法检测不同分组间的差异物种并通过LDA(线性判别分析)实现降维并评估差异物种的影响大小,即得到LDA score;组间差异物种的LEfSe分析结果包括三部分,分别是LDA值分布 柱状图,进化分支图(系统发育分布)和组间具有统计学差异的Biomarker在不同组中丰度比较图。

宏病毒组分析常见的分析软件
说明:m 为样本数, n 为代表性基因数目, gkh 为样本k的代表性基因h的标准化丰度,p为样本k的代表性基因h的总ORFs数目,Dki 为样本k包含的ORF i的reads数目,Lki为样本k的ORFi的序列长度。

耐药基因数据库CARD注释

功能注释这块针对最常见的KEGG及COG数据库的注释这块因为篇幅问题,不再做过多的介绍,如果科研小伙伴需要,评论区留言,小编可以满足大家做一期关于KEGG及COG数据库注释的专题哦。这里我们希望给各位小伙伴着重介绍一下抗生素耐药基因数据库的注释工作。随着抗生素药物的发现及使用,越来越多的耐药菌株由此产生。而耐药菌株的发展则会增加疾病治疗的难度和成本,因此耐药微生物的研究则显得尤为重要。虽然抗生素对病毒并无直接作用,但是有研究发现来自多种环境的病毒组携带着抗生素耐药性基因。这一结果提示着噬菌体—感染细菌的病毒—可能在转移让细菌产生耐药性的基因中发挥着作用。因此对病毒功能基因序列进行耐药性检测就显得尤为重要。目前,通过对耐药基因的鉴定挖掘能够一定程度上帮助我们揭开耐药机制,为疾病的治疗、药物研发提供参考。ARDB是最先整合了各种微生物中抗药基因的数据库,但它从2009年开始就不再更新。而CARD(the Comprehensive Antibiotic Research Database)数据库包含了ARDB数据库中所有抗性信息,并搭建了一个基于志愿者贡献的数据共享平台,做到了实时更新保证了数据的有效性。目前,CARD数据库收集了超过1600个已知的抗生素抗性基因。

CARD数据库(http://arpcard.mcmaster.ca)核心是ARO(Antibiotic Resistance Ontology), ARO包含了与抗生素抗性基因,抗性机制,抗生素和靶相关的term,如图所示。2017年发表的文章中,更新了数据库的相关功能,其中也提到了其他本体论,如用于描述抗生素抗性基因预测模块和参数的MO,定义不同term之间关系类型的RO,以及描述CARD中物种和菌株的NCBI Taxonomy。建议大家利用CARD官方软件rgi对全部得非冗余基因进行抗生素抗性基因注释。但注释之后如何批量的对注释的各个层面的注释结果进行提取、统计学分析以及可视化的工作,就靠大家各显神通通过自编脚本来完成啦。

噬菌体宿主预测

(1)利用Crass软件(Skennerton CT et.al, 2013)获取数据中CRISPR spacer和repeat序列信息,然后将序列回比至组装后的contig序列,通过注释结果来筛选噬菌体候选宿主信息。 筛选阈值为e-value<=1e-10并且比对相似性>=95%;
(2)基于已有噬菌体-微生物相互关系数据库Microbe Versus Phage(MVP, http://mvp.medgenius.info/home) 整理构建目前存在与噬菌体-原核生物(细菌/古菌) 的相互关系型数据库。通过比对确定组装contig与数据库中的病毒序列的相似度,并通过关系型数据库映射关系预估contig对应的可能宿主。

病毒基因组系统发育树

系统发育树(Phylogenetic tree,又称为系统发生树/系统发生树/系统演化树/进化树等),是用来表示物种间亲缘关系远近的树状结构图(Huelsenbeck JP, et al, 2001)。1965年,Linus Pauling等(Zuckerkandl E, et al, 1965)提出了分子进化理论,基于分子特性(DNA、RNA和蛋白质分子),推断物种之间的系统发生关系,由于核苷酸和氨基酸序列中含有生物进化历史的全部信息,因此利用该方法构建的系统进化树更为准确。在系统进化树中,物种按照亲缘关系远近被安放在树状结构的不同位置,因而,进化树可以简单地表示生物的进化过程和亲缘关系。病毒基因组系统发育分析为将目标基因组与近源序列一同建立进化树, 用以了解其系统发育关系, 将目标病毒与其他病毒的亲缘关系、 进化路径和聚类分群等情况进行可视化, 有助于梳理病毒之间的相关性和互作影响等关系。 具体使用 blast 软件, 把目标基因组分别于E-GENE IVD数据库比对,使用 MEGA 软件构建进化树。

宏病毒组分析常见的分析软件
图5:病毒与细菌互作网络图

篇幅限制,今天就先和大家聊到这里,想跟踪了解最新的宏病毒组相关的分析进展及思路,请持续关注易基因公众号,有想看的宏病毒相关的内容也可以后台留言给小编,安排!

Reference

  1. Bolger AM, Lohse M, Usadel B. Trimmomatic: a flexible trimmer for Illumina sequence data[J]. Bioinformatics, 2014, 30(15): 2114-2120.
  2. Breitbart M, Salamon P, Andresen B, et al. Genomic analysis of uncultured marine viral communities[J]. Proc Natl Acad Sci USA, 2002, 99(22): 14250-14255.
  3. Che LQ, Hu Q, Wang R, et al. Inter-correlated gut microbiota and SCFAs changes upon antibiotics exposure links with rapid body-mass gain in weaned piglet model[J]. Journal of Nutritional Biochemistry, 2019, UNSP 108246.
  4. Ewels P, Magnusson M, Lundin S, et al. MultiQC: summarize analysis results for multiple tools and samples in a single report[J]. Bioinformatics, 2016, 32(19): 3047-3048.
  5. Handelsman J, Rondon MR, Brady S F, et al. Molecular biological access to the chemistry of unknown soil microbes: a new frontier for natural products[J]. Chem Biol, 1998,5(10): R245-R249.
  6. Handelsman J. Metagenomics: application of genomics to uncultured microorganisms[J]. Microbiol Mol Biol Rev, 2004, 68(4): 669-685.
  7. Hill NM. The Invention of Lefse: A Christmas Story[J]. Library Journal, 2011, 136(15): 66-66.
  8. Huelsenbeck JP, Ronquist F. MRBAYES: Bayesian inference of phylogenetic trees[J]. Bioinformatics, 2001, 17(8): 754-755.
  9. Kanehisa M, Goto S. KEGG: Kyoto Encyclopedia of Genes and Genomes[J]. Nucleic Acids Research, 2000, 28(1), 27-30.
  10. Lefkowitz EJ, Dempsey DM, Hendrickson RC, et al. Virus taxonomy: the database of the international committee on taxonomy of viruses (ICTV)[J]. Nucleic Acids Res, 2017, 46: D708–D717.
  11. Lu J, Breitwieser FP, Thielen P, et al. Bracken: estimating species abundance in metagenomics data[J]. PeerJ Computer Science, 2017, e104.
  12. Pesenti A, Taudte RV, McCord B, et al. Coupling Paper-Based Microfluidics and Lab on a Chip Technologies for Confirmatory Analysis of Trinitro Aromatic Explosives[J]. Analytical Chemistry, 2014, 86(10): 4707-4714.
  13. Ren J, Song K, Deng C, et al. Identifying viruses from metagenomic data using deep learning[J]. Quantitative Biology, 2020, 8(1): 64-77.
  14. Qi Hu, Cong Liu, Du Zhang, et al. Effects of Low-Dose Antibiotics on Gut Immunity
  15. Schmidt TM, DeLong EF, Pace N R. Analysis of a marine picoplankton community by 16SrRNA gene cloning and sequencing[J]. J Bacteriol, 1991,173 (14):4371-4378.
  16. Skennerton CT, Imelfort M, Tyson GW. 2013. Crass: identification and reconstruction of CRISPR from unassembled metagenomic data. Nucleic Acids Res 41:e105.
  17. Zuckerkandl E, Pauling L. MOLECULES AS DOCUMENTS OF EVOLUTIONARY HISTORY[J]. Journal of Theoretical Biology, 1965, 8(5), 327-+.

了解更多详情:原文解读

来源:易基因科技

声明:本站部分文章及图片转载于互联网,内容版权归原作者所有,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2021年1月10日
下一篇 2021年1月10日

相关推荐