宏基因组数据分析中,经常会使用多种多样的数据库,如综述型的有NCBI非冗余核酸或蛋白序列库(NR)、KEGG、COG、eggNOG、RFAM等。专业型的数据库有CAZy(碳水化合物酶)、ARBD(抗生素抗性基因)、CARD、VFDB、PHI等众多数据库。同时基于这些数据库,又开发了很多软件、和在线服务器(web server)方便同行使用。
今天带大家来学习一下CAZy数据库的使用。这里推荐一个今年刚发表在核酸研究(IF>11)的webserver,方便大家鼠标点点,轻松完成宏基因组碳水化合物酶组学的注释。
Science哈扎人CAZYome分析实例
之前精讲过一篇Science封面文章,如下:
-
3分和30分文章差距在哪里/p>
正文仅有3个主图,图2的宏基因组部分就围绕着碳水化合物代谢相关基因组(CAZYome)进行的研究。今天就带大家学习一下它是如何实现。
先回顾一下Science图2的主要结果。
实例解读
本图主要基于宏基因组测序碳水化合物代谢基因的种类、丰度进行分析,揭示哈扎人菌群功能周期的变化和与现代人的差别。
本图有8个子图分为5组,从5个不同的角度/主题进行说明。
dbCAN2于今年5月16日在线发表于《核酸研究》杂志(IF=11.561),它是上文Science使用的dbCAN的升级版。知道为什么出2吗一版2012年出表至今已经引用571次了。
主页上有5个菜单,分别主页简介(Home)、在线注释(Annotate)、下载本地版(Download)、帮助(Help)和联系作者(About us)
详细的教程可见帮助页。
在线分析
-
填写E-mail,任务完成时获得结果链接;
-
序列类型,可选fasta核酸或蛋白序列
-
工具选择。默认只选了HMMER,一般也够用了。可以再选diamond、hotpep和CGCFinder。
-
基因位置文件gff/bed格式(可选),蛋白则不需要;
-
序列文件,少量可粘贴,大量则上传文件,要求小于100M。
点击Submit就等着收结果吧。运行完成见如下页面。即使关闭,会收到结果页的链接。
基于注释的结果,对我们宏基因组基因丰度矩阵进行筛选,就可以进行CAZyome的分析了。是不是挺容易的。
本地软件和数据库下载
http://cys.bios.niu.edu/dbCAN2/download/
有本平台所有的软件和数据库,查看README.txt
碳水化合物蛋白数据库
CAZyDB.07312018.fa 蛋白序列520Mb,可以用diamond比对
序列名为GeneBankID,和分类
AWI06117.1|GT2
CAZyDB.07312018.fam-activities.txt 分类描述文件
AA10 AA10 (formerly CBM33) proteins are copper-dependent lytic polysaccharide monooxygenases (LPMOs); some proteins have been shown to act on chitin, others on cellulose;
CAZyDB.07312018.pr-with-ec.txt 基因对应酶学编号
AAC00570.1 GT1|2.4.1.195
HMM数据库
dbCAN-HMMdb-V7.txt HMM模型
dbCAN2具体的本地安装涉及较多软件和数据库的布置,有时间写个专门的文章进行讲解。本文讲的在线版分析可以满足大多数同行。
Reference
-
Smits, Samuel A., et al. “Seasonal cycling in the gut microbiome of the Hadza hunter-gatherers of Tanzania.” Science 357.6353 (2017): 802-806. http://science.sciencemag.org/content/357/6353/802
-
附件目录 http://science.sciencemag.org/content/suppl/2017/08/24/357.6353.802.DC1
-
补充方法 http://science.sciencemag.org/content/sci/suppl/2017/08/24/357.6353.802.DC1/aan4834_Smits_SM.pdf
-
附表1. 样品列表 http://science.sciencemag.org/highwire/filestream/698500/field_highwire_adjunct_files/1/aan4834_Table_S1.csv
-
附表3. KEGG通路表 http://science.sciencemag.org/highwire/filestream/698500/field_highwire_adjunct_files/2/aan4834_Table_S3.csv
-
附表4. KEGG Carbohydrate Metabolism pathways http://science.sciencemag.org/highwire/filestream/698500/field_highwire_adjunct_files/3/aan4834_Table_S4.csv
-
Zhang, Han, et al. “dbCAN2: a meta server for automated carbohydrate-active enzyme annotation.” Nucleic acids research (2018).
-
http://cys.bios.niu.edu/dbCAN2/
猜你喜欢
10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature Cell专刊 肠道指挥大脑
系列教程:微生物组入门 Biostar 微生物组 宏基因组
专业技能:学术图表 高分文章 生信宝典 不可或缺的人
一文读懂:宏基因组 寄生虫益处 进化树
必备技能:提问 搜索 Endnote
文献阅读 热心肠 SemanticScholar Geenmedical
扩增子分析:图表解读 分析流程 统计绘图
16S功能预测 PICRUSt FAPROTAX Bugbase Tax4Fun
在线工具:16S预测培养基 生信绘图
科研经验:云笔记 云协作 公众号
编程模板: Shell R Perl
生物科普: 肠道细菌 人体上的生命 生命大跃进 细胞暗战 人体奥秘
写在后面
为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。
点击阅读原文,跳转最新文章目录阅读来源:刘永鑫Adam
声明:本站部分文章及图片转载于互联网,内容版权归原作者所有,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!