使用NCBI rpsblast寻找蛋白序列具有的保守Domain (本地版CD-search)

使用NCBI rpsblast寻找蛋白序列具有的保守Domain (本地版CD-search)

在生信研究中经常需要寻找蛋白序列的Domain,蛋白序列的Domain对于蛋白质来说是最重要的一部分,一般来说会有发挥功能的区域,结合其它物质的区域,二聚化区域等等。现在的蛋白质数据库已经很多了,但寻找Domain可以直接考虑NCBI的CD-search功能,其中包含了NCBI自带的CDD库(link),PRK库(link),以及外部的Pfam数据库(link),COG库(link),SMART库(link),TIGRFAM库(link)等。查询起来可以说是很方便!网页查询地址为:https://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi

此处介绍本地版查找Domain的方法,数据仍旧是NCBI上的数据,只不过是下载后使用而已。进行本地版rpsblast依赖本地BLAST工具即可,BLAST+安装包已包含此功能,不需要额外安装其它工具。

文章目录

    • 数据下载
    • 建立数据库
    • rpsblast

数据下载

下载地址为:https://ftp.ncbi.nih.gov/pub/mmdb/cdd/cdd.tar.gz

这个文件是包含了NCBI网页版的各个库的,即CDD、COG、SMART、TIGR、PRK等。若是只想使用某个库,也可以只下载某个库对应的文件。地址是:https://ftp.ncbi.nih.gov/pub/mmdb/cdd/little_endian/

此处介绍下载完整文件的版本。下载的文件解压后是包含了各个结构域对应的矩阵文件(即smp文件),这些矩阵文件储存的是Domain的特征。此外还有以pn为后缀名的文件,是用于存放某数据库的所有矩阵名的文件,例如Tigr.pn存放了TIGR00001.smp、TIGR00002.smp等矩阵名。这些矩阵名存放在pn文件中是为了后续制作db准备的。

建立数据库

如同其它blast一样,rpsblast也需要建立数据库即db,制作db的命令是makeprofiledb。

使用方式:

根据自己的需求设置自己数据库的内容,需要多种数据库的话可以自己将对应的smp文件名都读取之后存入某个文件(文本类文件即可),也可以按照CDD、COG、SMART、TIGR等分类分别进行建库。

当自己有特定想找的某Domain时,就可以将Domain的分类号(如TIGR00001)对应的文件名(即TIGR00001.smp)全部放入一个文本文件中。然后建立此特定Domain的库。

例:

当想找的Domain包含在TIGR00001.smp、TIGR00002.smp中,那么将这两个名字放在test.txt件中。

使用如下命令即可建立名为test的库。进行rpsblast时直接调用此文件夹下的test数据库即可。

rpsblast

进行rpsblast的步骤与blast类似,其输出结果也同blast类似。

根据自己建好的数据库,rpsblast的命令如下:

本地rpsblast的结果与网页CD-search的结果有所不同,是因为网页blast设置了一些参数,若是想要获取到同网页CD-search一样的结果,那么可以按照readme文件中的指引设置一下(readme文件链接在 参考 中)。

本文主要介绍了rpsblast的基本使用方式,基本能应付平常的需要啦!

参考:https://blog.csdn.net/weixin_43364556/article/details/102968436

参考:ftp://ftp.ncbi.nih.gov/pub/mmdb/cdd/README

来源:你大佬来啦

声明:本站部分文章及图片转载于互联网,内容版权归原作者所有,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2020年8月23日
下一篇 2020年8月23日

相关推荐