如何使用MEGA软件构建系统发育树_速成实用经验

本文主要介绍了使用MEGA7软件为获取的未知基因序列构建系统发育树，并从中获取基因序列的种属信息。

工欲善其事，必先利其器。我想，介绍构建系统发育树之前有必要介绍一下建树过程中用到的主要工具与关键词定义。

什么是MEGA/em>

MEGA （Molecular Evolutionary Genetics Analysis）是一款集序列比对、序列分析与系统进化树构建于一体的开源软件。MEGA软件具有分析效率高、操作简单和功能一体化等优点。登陆MEGA官网（https://www.megasoftware.net/）即可免费下载使用，Window/Mac/Linux三个平台都有可用的版本，当前最新版本是MEGA X。

什么是系统发育树/em>

系统发育树也称系统进化树(phylogenetic tree), 它是用类似树状分支的图来表示各种生物之间的亲缘关系, 通过对基因序列或蛋白质的对比分析来表征物种之间进化地位远近的一种方式。系统发育树主要是依靠它的拓扑结构和分支长度来展示所推演的进化过程。

–根据拓扑结构的不同系统发育树可以分为有根树和无根树。

有根树有一个根节点，代表所有其它节点的共同祖先，从根节点只有唯一路径经进化到达其他任何节点；

无根树只表明了节点之间的关系，没有进化方向，但是通过引入外群（outgroup）或外部参考物种可以在无根树中指派根节点。

可用来建树的数据： DNA or Protein （染色体基因、线粒体、叶绿体、16S、基因保守区（MLST、domain序列）等）；可用来建树的方法：NJ（邻接法）、ML（最大似然法）、MP（最大简约法）、Bayes (贝叶斯法)；可用来建树的模型：DNA（GTR、TN93、HKY等）、Protein（JTT、WAG、LG等）。

系统发育树构建的一般过程：

什么是BLAST/em>

BLAST全称Basicocallignmentearchool，是查询序列在蛋白质数据库或者基因数据库中进行局部对比搜索的工具，分析的结果是以统计评分的方式呈现。其中，最常用的3个评分指标分别是E value，Total Score，Per.Ident。

E value

在BLAST结果页概述栏中，E value是默认按照由低到高的顺序排列。E value代表的是被比对的序列不相关的可能性，因此E value越小，代表序列相关性越大。若是E value无限趋近于0，则表示我们要检测的序列是完全匹配的。

Total Score

在概述栏中，Total Score分值越高，说明被BLAST的序列特异性越好。Total Score也是按照分值从高到低排列的。

Per.Ident

在概述栏中，Per.Ident代表了所在行的序列与被BLAST的序列的相似度。Per.Ident越大，表示该序列与被测序列相似度高，一般Per.Ident>97%就可以认为该序列与被测序列属于同属。

本文简要分享以MEGA7软件为工具，构建系统进化树的操作流程（具体参数细节请MEGA官网教程说明）。

当我们想要建立一个系统发育树时，大概率是两个原因：

1) 你获取了一个或多个基因片段，希望通过分子序列分析判定这些这些片段是来源于哪种属的解目标基因在整个进化体系中所处的地位，以及判断其与其他基因片段（或种）的亲缘关系；

2) 当你获取大量同源基因序列，你想要了解这些同源基因序列之间的进化关系与亲缘关系（譬如，新冠疫情全球爆发时，在世界各地采集的新冠病毒基因序列，往往呈现出来源于同一个国家或地区的亲缘关系更近）。

本文介绍第1种情况，假设以下是我获取的3段16SrRNA基因序列，分别命名为SW-1，ZL-2，XQ-3，以.txt文本文件形式保存：

01首先，登陆BLAST网站（https://blast.ncbi.nlm.nih.gov/Blast.cgi），界面如下：

然后点击“Nucleotide BLAST”按钮进行核苷酸序列比对，界面如下：

在“Enter accession number(s), gi(s), or FASTA sequence(s)”处输入上述“获取的序列.txt”文件中的第一段核苷酸序列SW-1；“Job Title”输入一个标识，用以区分，意义不大，输入“SW-1”;“Database”选择“rRNA/ITS databases”>“16S ribosomal RNA sequences (Bacteria and Archaea)”；勾选“Show results in a new window”。最后点击“BLAST”进行对比。对比结果如下图所示：

勾选需要下载的序列（构建一个系统发育树一般总共使用10~20条基因序列，一般选择相似度最高的（即最靠前）的序列进行建树），点击“Download”>“FASTA(complete sequence)”下载BLAST结果序列文件（在选择BLAST结果序列时，选择模式菌株序列会具有更强说服力与更高可信度）。

模式菌株：模式菌株（type strains）又称标准菌株，通常需要由至少两个不同国家的专门保藏机构保藏的菌株，一个菌株在同一个保藏机构有且仅有永久保藏号。保藏菌株是否是标准菌株的标志是在菌株名后有一个上标的T (Type)，每种菌可以有多个标准菌株。

小技巧：一般可以根据BLAST结果最靠前的10个基因序列（Per.Ident>97%）来源菌属大致判断查询序列的来源菌属。譬如，本例的SW-1序列BLAST结果前10个都是“Pseudomonas”菌属，所以初步判定SW-1序列来源于“Pseudomonas”菌属。但这只是初步判断，并非一个强有力的依据。

结果文件（.txt）命名为“SW-1相似序列”，如下图所示：

按上述方法，依次将“获取的序列”文件中的“ZL-2”与“XQ-3”序列进行BLAST，下载的.txt文件分别命名为“ZL-2相似序列”，“XQ-3相似序列”。其中，SW-1,ZL-2,XQ-3共选取相似序列14条。

我们还将获取一个外源菌序列（本示例选择的是同科不同属的外源菌Cellvibrio mixtus）。文件如下图所示：

名词解释

外源菌：类似于“外群”，为了让查询菌的序列与相似序列更好地聚合，使得构建的系统发育树更具有可信度而引入的菌种。

外源菌的获取：可以先查询目标序列的所属属，再查其所属科级下的其他属。最后，去NCBI官网直接搜索该属名，选择一个对应的扩增区的模式菌株的序列即可尝试用于建树。

02此时，我们已经拥有了建立系统发育树所需要的全部数据。

然后，我们将需要用来建立系统发育树的.txt文本文件后缀改为.fas或.fasta，这样格式的文件才能够被MEGA软件识别与读取。

双击“获取的序列.fas”打开该文件，MEGA界面如下：

点击“Insert sequences from MEGA/FASTA/Text…”按钮，选择并导入“SW-1相似序列.fas”，“ZL-2相似序列.fas”，“XQ-3相似序列.fas”，“外源序列.fas”文件，显示如下，此按钮可以添加导入我们需要的序列文件。

打开所有用于构建系统发育树的序列.fas文件，如下图所示：

选择“Data”>“Select Gentic Code Table”进入密码子选择界面。

选择“Standard”标准密码子，选择“OK”继续。

选择“Edit”>“Select All”全选所有数据。

选择“Alignment”>“Align by ClustalW”进行序列比对。

弹出参数设置界面，无需更改，选择“OK”继续。

出现对比进度条框，等待完成…

可见，对比完成后，序列碱基明显被对齐。

将对齐后的序列前后裁齐，即选择前后端处不齐平的序列所在列，敲击键盘“delete”键删除。

裁剪齐平后，选择“Data”>“Export Alignment”>“MEGA Format”，保存裁剪齐了的对齐了的序列到“获取的序列.meg”。

提示“Input title of the data”，输入“获取的序列”，点击“OK”继续。

确认是否是蛋白编辑序列，这里选择“No”继续。

获得的“获取的序列.meg”如下所示：

03接下来，我们需要先探索最佳的建树模型，用于后续使用。

打开MEGA7主界面，如下图所示：

选择“Analysis”>“Models”>“Find Best DNA/Protein Model”，进入选取文件界面。

选择“获取的序列.meg”并打开,提示数据类型选择“Nucleotide Sequences”核苷酸序列，点击“OK”继续。

在分析偏好界面，“Statistical Method”选择“Maximum Likelihood”，“Gaps/Missing Data Treatment”选择“Use all sites”，“Branch Swap Filter”选择“Very Strong”，点击“Compute”继续。

等待分析进度条完成…

可见“Model”列中“GTR+G+I”的“Parameters”系数（43）最大，DNA模型预测结果表示选择“GTR+G+I”最佳。

进入主界面，选择“Phylogeny”>“Construct/Test Maximum Likelihood Tree…”进行基于MEGA的最大似然法建树。

选择文件“获取的序列.meg”，进入分析偏好界面。依据之前预测最合适的模型为GTR+G+I，所以“Model/Method”选择“General Time Reversible（GTR）”，“Rates among Sites”选择“Gamma distributed with Invariant sites(G+I)”。此外，“Test of Phylogeny”选择“Bootstrap”，“No. of Bootstrap Replications”选择“100”（一般都是100的整数倍，数值越大，评估次数越多，消耗的时间越多）。点击“Compute”开始进行建树计算。

等待建树进度条完成…

计算完成，结果界面如下：

系统发育树已经初步构成，但是直观可见存在个别序列影响树的结构与美观。这里我们做的是删除NR103934.2与NR043421基因序列（即在对齐裁剪序列之后和生成.meg文件之前删除这两个基因序列，只需要选中需要删除的序列，右击鼠标选delete就可以，后续分析步骤相同），重新计算与构建系统进化树。
重建的系统进化树“Original Tree”结果如下图所示：

点击“Bootstrap consensus tree”，结果如下图所示：

Original tree 与Bootstrap consensus tree有什么区别br> 1）在构建系统树时，使用了Bootstrap法进行检验。在做Bootstrap时，以原序列为蓝本随机重组生成新的序列，重复估算模型。如果原序列计算得到的分枝在新Bootstrap中依然频繁出现，则该分枝的可信度高。分枝在Bootstrap中出现的频率就是表征分枝可信度的参数；
2）Original Tree是步长检验构建的 N次株树中的最优系统树。未经过多棵树合并，所以Original Tree上有计算得到的距离数据，可以精确地表征两个基因的亲缘远近；MEGA形成的Original Tree上也有频率参数，实际来自Bootstrap Consensus Tree的对应分枝；
3）Bootstrap Consensus Tree 是很多次Bootstrap得到的平均结果，它不包含进化距离信息（在设置View时无法调用，也没有意义），分枝上的数字代表该分枝的频率参数，即经步长检验有百分之几的树具有这根树枝，反应了该树枝的可信度。另外，它的拓扑结构也可能与Original Tree很不相同。

也可以选择“Tree/Branch Style”>“Radiation”，更换成放射状树枝风格。