Nature子刊:古菌基因组的标准化物种分类方法

Nature子刊:古菌基因组的标准化物种分类方法
Nature子刊:古菌基因组的标准化物种分类方法

a,b 由 NCBI 分类法 (a) 和精选的 GTDB 分类法 (04-RS89) (b) 定义的分类群的 RED。每个数据点(黑色圆圈)代表根据其 RED 值(x 轴)和其等级(y 轴)分布的分类群。圆圈的填充颜色(蓝色、灰色或橙色)表明分类单元在基础基因组树中分别是单系的、可操作上的单系(定义为 F 值 >0.95)或多系的。叠加的直方图显示了每个 0.025 RED 间隔的单系、操作单系和多系分类群的相对丰度。蓝条表示RED值的中位数,两边的黑色条表示每个等级的RED区间(±0.1)。请注意,在 NCBI 分类法中,较高等级(目及以上)的值分布非常不均匀,以至于中位数无序;也就是说,纲的中位数 RED 值高于目的中位数。GTDB 分类法使用 RED 值来解决过度分类和分类不足的分类群,方法是将它们移动到新的内部节点(图中的水平移动)或将它们分配到新的等级(图中的垂直移动)。仅使用单系或操作单系分类群来计算每个等级的中位 RED 值。此外,对于GTDB 树(‘—min_children 2’)只考虑至少有两个子类的分类群(例如,一个门具有两个或更多的纲或一个纲具有两个或更多的目);然而,NCBI树需要一种更宽松的方法(‘—min_children 0’),因为除了 Euryarchaeota 外,没有一个 NCBI 门具有所需的最少两个纲。请注意,NCBI 图中未显示 Crenarchaeota 门,因为该 NCBI 门中的所有基因组都被分配到 Thermoprotei 纲,导致单个被称为“pCrenarchaeota;cThermoprotei’ (Tpr)的节点。此外,在 GTDB 04-RS89 中,Korarchaeota 仅由单个物种 Korarchaeum cryptofilum 表示,因此在此图中没有显示内部节点。RED 值是基于 ar122.r89 树计算的,从 122 个连接的蛋白质中推断出来,用 NCBI 或 GTDB 分类法描述。

c GTDB 和 NCBI 分类法的等级比较。图中显示了GTDB对比于NCBI在RefSeq/GenBank第89版中2,392个古菌基因组分类分配的变化。值得注意的是,153个通过质量控制(QC)的UBA基因组没有被包括在内(2,392-153 = 2,239),因为它们没有进行 NCBI 分类分配。在左侧的栏中,如果分类单元在两个分类法中的名称相同,则该分类单元显示为未更改,如果 GTDB 分类法提供了 NCBI 分类法中不存在的名称信息(缺少名称),则显示为被动更改,如果名称在两种分类法中不同,则显示为主动更改 。右栏显示了每个基因组的整个分类字串(由七个等级组成)的变化,表明大多数基因组在其分类法中既有主动变化,也有被动变化。

图 2 标记集、推理方法和模型的比较

Comparison of marker sets, inference methods and models

Nature子刊:古菌基因组的标准化物种分类方法

a-c,在 GTDB (a) 中实施的生根方法将 RED 计算为具有至少两个纲(红色箭头)的门的所有可能生根的中值,并将其与 DPANN 超门(红色箭头)和其余古生菌 (b)类别之间的固定根进行比较, 这转化为两个门 Thermoplasmata 和 Halobacteriota(红色箭头)与 GTDB 分类学中古生菌的其余部分之间的根(c);

在上方的 RED 图中,每个数据点(黑色圆圈)代表根据其 RED 值(x 轴)和等级(y 轴)分布的分类群。簇状直方图显示了每个 0.025 RED 区间的分类群的相对丰度,蓝色条显示了中间 RED 值,两侧的两个黑条显示了每个等级的 RED 区间 (±0.1)。请注意,总的来说,无论应用的生根场景如何,都可以根据其 RED 值来区分等级。此外,RED 值是相对的,不应直接在图之间进行比较,因为它们是特定于数据集的。相反,RED 值的分布是关键指标;也就是说,与每个等级 (ΔRED) RED 值的中位数的距离(正或负)。这些树包括一个标签,突出显示相应的 NCBI 门 Euryarchaeota (Eury) 作为参考点。

图 4 等级标准化古菌 GTDB 分类法

Rank-normalized archaeal GTDB taxonomy

Nature子刊:古菌基因组的标准化物种分类方法
Nature子刊:古菌基因组的标准化物种分类方法

由来:基因组分类数据库的标准化古菌物种分类;

命名的 GTDB 门、主要纲和选定的目与其相应的 NCBI 物种分类一起被列出。请注意,在 GTDB 和 NCBI 谱系不完全匹配的情况下,将提供匹配分类群数量最多的 NCBI 谱系。n.a.,未分配,表示在 NCBI 分类法中没有为该谱系分配等级。自RefSeq89(2018 年 7 月 13 日)发布至 2021 年 3 月 12 日,NCBI 分类法中已更新的名称在方括号中显示。

a,Nunoura等人建议为‘Ca. Aigarchaeota’

b,Kozubal等人建议为‘Ca. Geoarchaeota’,请注意,名称已在 GTDB 05-RS95 中更正为“o__Gearchaales”。

c,Castelle等人建议为‘Ca. Pacearchaeota’

d,Castelle等人建议为‘Ca. Woesearchaeota’

e,在 GTDB 05-RS95 中,名称已更正为“Aenigmatarchaeota”和“Aenigmatarchaeia”。

f,请注意,该谱系的等级在 NCBI 中被定义为“进化枝”。

图 5 Thaumarchaeota 的重新分类

Reclassification of the Thaumarchaeota

Nature子刊:古菌基因组的标准化物种分类方法

学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”

Nature子刊:古菌基因组的标准化物种分类方法点击阅读原文,跳转最新文章目录阅读

文章知识点与官方知识档案匹配,可进一步学习相关知识MySQL入门技能树首页概览31551 人正在系统学习中

来源:刘永鑫Adam

声明:本站部分文章及图片转载于互联网,内容版权归原作者所有,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2021年8月5日
下一篇 2021年8月5日

相关推荐