点击蓝字 关注我们
利用Parallel-Meta Suite在多平台下进行交互式微生物组分析
2022/3/6
● 2022年3月6日,青岛大学苏晓泉团队在iMeta在线发表题为“Parallel-Meta Suite: Interactive and rapid microbiome data analysis on multiple platforms”的研究性文章。开发了软件包Parallel-Meta Suite(PMS),可在多个平台上进行快速、全面的微生物组数据分析。
● 前文回顾nbsp;iMeta:青岛大学苏晓泉组开发跨平台可交互的微生物组分析套件PMS(全文翻译,PPT,视频)
● 在该文的基础上,本文对PMS软件包
进行非常详细的逐步解读,方便读者使用。
● 第一作者:李坚
● 通讯作者:苏晓泉
(suxq@qdu.edu.cn)
摘 要
测序通量的提高和测序成本的降低,极大地方便了微生物组研究实验的开展,进而产生了浩如烟海的组测序数据,这些数据中蕴藏着微生物与其环境表型(如宿主健康或生态系统状态)之间的关联。想要破译隐藏在微生物组数据下的生物信息,出色而又可靠的软件工具是不可或缺的。然而现在的大多数的软件,其可用性方面的缺陷为非计算机专业的用户设置了难以逾越的鸿沟。与此同时,计算通量已经成为了许多分析平台处理大规模数据集的一个重要瓶颈。本研究开发了Parallel-Meta Suite(PMS),一个用于快速和全面的微生物组数据分析、可视化和注释的可交互软件套件。PMS采用了最先进的算法,涵盖序列微生物组数据物种与功能解析、统计分析、可视化等一系列流程,并具有友好的图形界面,可以满足各种用户的分析需求。为了适应快速增长的计算能力需求,PMS的整个分析流程都使用并行计算策略进行了优化,具备快速处理上万的样本的能力。此外,PMS还具有多操作系统兼容、简易安装与全自动运行等特性。
关键字:微生物组,宏基因组,扩增子,分析流程,可视化,并行计算
Bilibili:https://www.bilibili.com/video/BV16Y4y1v75k
Youtube:https://youtu.be/evrQXfL9ujE
中文翻译、PPT、中/英文视频解读等扩展资料下载
请访问期刊官网:http://www.imeta.science/
仪器软件
● 仪器设备
目前Linux(如Ubuntu、CentOS、RedHat等)、Mac OS和Windows 10/11内置的WSL(Windows Subsystem for Linux)等操作系统均能够支持PMS。
PMS仅需要具有约2GB内存的标准计算机即可支持其安装与执行。为了更好的体验和更快的计算速度我们推荐在具有8GB以上内存和4核3.3Ghz以上CPU的标准计算机上使用PMS。
● 软件
PMS软件最新版本为3.7。该软件主要由C++和R语言开发编写。
C++语言需要安装C++编译器(例如g++)。对于Linux操作系统,大多版本已经在系统中安装了g++。对于Mac OS,建议从App Store安装Xcode应用程序,即可完成编译器的安装与配置。
R语言需要安装r-base提供运行环境。对于Linux操作系统,可以使用系统自带的包管理工具安装r-base。对于Mac OS,建议从App Store安装RStudio应用程序,即可完成R运行环境的安装与配置。
实验步骤
● 1. 安装Parallel-Meta Suite
我们建议选择步骤 1.1 中自动安装的方式来配置PMS软件。但如果自动安装程序失败,可以按照步骤 1.2 中的步骤手动安装PMS软件。
1.1 自动安装(首选方案)
1)下载对应操作系统的软件安装包
Linux和WSL的下载命令:
MacOS的下载命令:
2)解压缩
使用以下命令对安装包进行解压缩:
3) 安装
运行以下安装命令:
按照上述步骤操作,该软件包可以在30分钟内安装到计算机上,安装成功后提示信息如下(图1)所示:
表1. 文件列表格式
2.3 Meta信息
Meta信息文件为纯文本格式文件,包含测序样本的meta信息,通常会有多列,其中第一列是样本的ID,其他列为meta信息的项目,如表2所示。需要注意的是,样本ID命名及其顺序需要与样本列表中的样本ID保持一致。
图2. 配置向导页面
在此,我们将展示PMS在不同计算平台和环境下的三个典型场景的使用情况和经验(图3)。需注意的是配置指南是可以独立运行的,配置过程可和分析过程可能在不同设备和环节下执行,但输入输出文件路径还是要以分析执行的设备为准。
图4. PMS的结果导览页面
图5. PMS的工作流程
微生物组的物种信息通过Krona(Ondov等, 2011)和条形图进行可视化。然后,在用户选择的特定分类学或路径级别上进行微生物多样性分析、生物标记物选择和共现网络构建。α多样性分析计算每个样品的香农、辛普森和Chao1指数。对于离散的元数据(如类型、状态、性别等),α多样性指数进行Wilcoxon或Kruskal秩和检验,对于连续变量(如年龄、BMI、PH值等)进行回归分析。β多样性通过加权/非加权Meta-Storms(Su等, 2012)算法(针对物种分类)或Hierarchical Meta-Storms(Zhang等, 2021)(针对功能)计算所有样本之间距离矩阵,并通过热图进行可视化。之后,通过PCoA(主坐标分析)和PCA(主成分分析)图展示β-多样性模式,对离散元数据进行PERMANOVA和ANOSIM检验,对连续变量和距离值进行回归分析。在生物标志物分析中,PMS使用Wilcoxon或Kruskal秩和检验,选择出在不同组别(离散数据变量)间具有显著差异的微生物或基因单元作为候选标记物,然后通过随机森林(Vangay等, 2019; Qian等, 2020)的重要性进行排序。与连续变量密切相关的微生物组特征也通过回归分析被挑选出来作为生物标志物。在共现网络中,网络节点是群落特征(例如,一个微生物分类单元),网络的边代表节点间的Spearman相关性,然后计算网络密度、直径、半径和集中度来量化网络属性。
结果与分析
为了证明PMS在解码微生物组概况和将生态模式与关键meta数据联系起来的能力,这里选取了医院开业前后室内微生物组的变化验证。所有的数据集均可在 PMS 软件下载页面的“Supplementary”部分中下载。
数据集包含894个来自医院开业前后室内环境的16S-扩增子微生物组样本。我们用所有的默认参数执行了PMS分析流程。从结果中我们可以观察到,医院开放后,α多样性的香农指数下降(图6A;Wilcoxon检验p值<0.01),整体群落的β多样性明显转变(图6B;加权Meta-Storms距离,PERMANOVA检验p值<0.01),均已被Lax等人(Lax等, 2017)验证过。两个时间点之间的这种微生物动态也可以通过相对丰度的变化来说明(图6C)。使用统计测试和机器学习分析方法,PMS还确定了有助于区分医院表面从开业前到开业后状态的这种生态变化的最重要的微生物,如葡萄球菌、莱茵海拉菌和莫德斯特菌。这个机器学习模型在区分室内样本(图6D)的属级状态方面达到了95.91%的准确率(误差率=4.09%)。
陈俞竹
● 青岛大学软件工程学术硕士,2019年公派至瑞典布莱津理工大学交换学习。
● 目前研究方向为微生物组大数据分析与挖掘,相关学术成果已发表于iMeta、Computational and Structural Biotechnology Journal等期刊。
苏晓泉(通讯作者)
● 青岛大学教授,博士生导师。
● 研究方向为生物信息学与大数据科学,已在mBio、mSystems、Bioinformatics、iMeta等期刊发表学术论文40余篇,主持国家自然科学基金项目、国家重点研发子课题、山东省自然基金重大基础项目、中科院重点部署项目子课题等,相关成果获得8项软件著作权。
更多推荐
(▼ 点击跳转)
iMeta文章中文翻译+视频解读
iMeta | 南科大宋毅组综述逆境胁迫下植物向微生物组求救的遗传基础(附招聘)
iMeta:哈佛刘洋彧等基于物种组合预测菌群结构的深度学习方法
iMeta:西农韦革宏团队焦硕等-土壤真菌驱动细菌群落的构建
iMeta教你绘图
使用ImageGP绘图热图Heatmap
期刊简介
微信公众号
iMeta
责任编辑
微微
往期精品(点击图片直达文字对应教程)
机器学习
后台回复“生信宝典福利第一波”或点击阅读原文获取教程合集
文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树首页概览210467 人正在系统学习中
来源:生信宝典
声明:本站部分文章及图片转载于互联网,内容版权归原作者所有,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!