Nature方法 | 三代长读长宏基因组组装软件metaFlye

                简介                 

Nature方法 | 三代长读长宏基因组组装软件metaFlye

a,不同基因组类型构成的组装草图;重复边、单边分别使用彩色和黑色线条展示,metaFlye可将X、Y、Z边鉴定为重复边。b,两个物种序列构成的简单气泡结构。c,三个物种序列构成的超级气泡结构。d,两个物种序列构成的环路结构,其中一条序列与另一条宏基因组组装产物的某些不同区域具有重复。

2.2   组装多个相似细菌基因组

种株水平的细菌基因组种,共有序列和特有序列常形成一个简单气泡结构(图1b)或超级气泡结构(图1c),或者某些株的基因组与一些其他不相关的基因组共有一段重复序列,而形成环路结构(图1c)。与单型体(haplotype)识别的组装算法相似,这些株诱导形成的重复图种的子图需要被检测、简化,以产生准确的、连续的宏基因组组装产物。本文方法部分有具体描述metaFlye如何检测和简化这些子图。

2.3 不同组装软件对于SYNTH181数据集的组装效果

图2,不同组装软件(Canu, Flye, metaFlye, miniasm和wtdbg2)对于SYNTH181数据集中宏基因组数据样本进行组装的效果评估

Fig. 2 | Comparison of Canu, Flye, metaFlye, miniasm and wtdbg2 assemblies of the individual genomes in the SYNTH181 dataset

Nature方法 | 三代长读长宏基因组组装软件metaFlye

几乎所有长序列平台的数据集(PacBio,GridION 14Gbp,GridION 16Gbp,PromethION 146Gbp和PromethION 148Gbp)在使用metaFlye组装后的结果都是最优的,评价指标包括组装长度、相对参考基因组的覆盖度、序列一致性、NGA50、错误组装、CPU占用时间等。

2.5 Zymo数据集的组装

图3,使用metaQUAST对不同组装软件组装模拟菌群数据集序列的组装覆盖度和NGA50值统计

Fig. 3 | Per-species reference coverage and NGA50 statistics for the mock community datasets (HMP, ZymoEven GridION and ZymoLog GridION) computed using metaQUAST

Nature方法 | 三代长读长宏基因组组装软件metaFlye

a, 绵羊肠道微生物组中单个连接组件的组装草图。该组件代表了Clostridia纲的细菌基因组,该基因组具有92%的保守marker完整性。组装产物中含有20个简单气泡结构(绿色)和10个超级气泡结构(黄色),这些结构在2.4Mbp的长序列基因组中占有1.2Mbp。b, 绵羊肠道微生物组中1141个气泡结构的长度和分支序列鉴定程度的分布图。

2.7 人类肠道微生物宏基因组数据组装

表2 对真实宏基因组数据集的组装效果

Nature方法 | 三代长读长宏基因组组装软件metaFlye

总结:长序列宏基因组在解析复杂细菌菌群中具有很好的前景,但是其组装等步骤仍然面临很大的算法问题。metaFlye相较Canu,对于HMP和Zymo模拟菌群的组装产物具有更好的序列相似性和组装质量。相较miniasm、wtdbg2和FALCON,metaFlye和Canu对于大多数模拟菌群数据集的装配效果都有所改进。此外,只有metaFlye和wtdgb2能够组装PromethION测序产生的150Gbp规模的长序列数据,但是wtdbg2的组装产物片段化更显著。

                参考                 

[1] Kolmogorov, M., Bickhart, D.M., Behsaz, B. et al. metaFlye: scalable long-read metagenome assembly using repeat graphs. Nat Methods (2020). https://doi.org/10.1038/s41592-020-00971-x

猜你喜欢

10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature Cell专刊 肠道指挥大脑

系列教程:微生物组入门 Biostar 微生物组  宏基因组

专业技能:学术图表 高分文章 生信宝典 不可或缺的人

一文读懂:宏基因组 寄生虫益处 进化树

必备技能:提问 搜索  Endnote

文献阅读 热心肠 SemanticScholar Geenmedical

扩增子分析:图表解读 分析流程 统计绘图

16S功能预测   PICRUSt  FAPROTAX  Bugbase Tax4Fun

在线工具:16S预测培养基 生信绘图

科研经验:云笔记  云协作 公众号

编程模板: Shell  R Perl

生物科普:  肠道细菌 人体上的生命 生命大跃进  细胞暗战 人体奥秘  

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。PI请明示身份,另有海内外微生物相关PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。

Nature方法 | 三代长读长宏基因组组装软件metaFlye点击阅读原文,跳转最新文章目录阅读

文章知识点与官方知识档案匹配,可进一步学习相关知识算法技能树首页概览34041 人正在系统学习中

来源:刘永鑫Adam

声明:本站部分文章及图片转载于互联网,内容版权归原作者所有,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2020年9月15日
下一篇 2020年9月16日

相关推荐