医学分析专业名词解释

甲基化：

真核生物基因表达受多种机制、多层面的综合调控。基因的DNA序列不发生改变的情况下，基因的表达水平与功能发生改变，并可遗传现象，称为表观遗传(epigenetic)现象。

表观遗传学：调控机体基因表达的最重要途径之一。

表观遗传学的调节机制主要包括DNA甲基化、组蛋白修饰、非编码RNA作用等多种形式，其中，DNA甲基化是目前研究的比较清楚的表观遗传修饰方式。DNA高度甲基化首先会影响DNA结构，进而阻遏基因转录，引起基因沉默。

DNA甲基化与基因表达调控

DNA甲基化为非编码区（如内含子等）的长期沉默提供了一种有效的抑制机制。基因启动区域内CpG位点的甲基化通过三种方式影响基因转录活性：DNA序列甲基化直接阻碍转录因子的结合；甲基CpG结合蛋白结合到甲基化CpG位点与其他转录抑制因子相互作用；染色质结构的凝集阻碍了转录因子与其调控序列的结合。

DNA甲基化与肿瘤发生

肿瘤中普遍存在DNA甲基化状态的改变，其特点是总体甲基化水平的降低与局部甲基化水平的升高。在肿瘤细胞中，癌基因处于低甲基化状态而被激活，抑癌基因处于高甲基化状态而被抑制。

RNA甲基化修饰

mRNA的内部修饰则用于维持mRNA的稳定性。一旦参与m6A修饰的酶出现异常将会引起一系列疾病，包括肿瘤、神经性疾病、胚胎发育迟缓等。

已知绝大部分真核生物中，mRNA在5’ Cap处存在甲基化修饰，作用包括维持mRNA稳定性、mRNA前体剪切、多腺苷酸化、mRNA运输与翻译起始等。而3’ polyA发生的修饰有助于出核转运、翻译起始以及与polyA结合蛋白一起维持mRNA的结构稳定。

但是这些修饰只发生mRNA的头部和尾部，关于RNA的内部修饰（internal modification）在许多种类的RNA中都有发生。无论是mRNA还是lncRNA，都大量存在m6A修饰。m6A能够加速mRNA前体的加工时间，加快mRNA在细胞中的转运速度和出核速度。

什么叫m6A修饰

通过KM估计法，我们就可以求得生存曲线上对应时间点的生存概率

根据KM估计法求得生存概率后，我们只需要找到当生存概率为50%所对应的时间点，该点值即为中位生存时间。

Log-Rank检验法

Log-Rank检验法可用于比较不同组别生存曲线或生存函数，从而确定某一待检验因素对于事件结局的发生情况是否存在显著影响。

风险概率:在指定时间点tn尚未发生事件结局情况下，在该时间点事件发生的概率。

NMF非负矩阵分解算法（Non-negative Matrix Factorization）

NMF的基本思想可以简单描述为：对于任意给定的一个非负矩阵V，NMF算法能够寻找到一个非负矩阵W和一个非负矩阵H，使得满足，从而将一个非负的矩阵分解为左右两个非负矩阵的乘积。如下图所示，其中要求分解后的矩阵H和W都必须是非负矩阵。

ConsensusClusterPlus 包对基因表达数据进行一致性聚类

从原数据集不同的子类中提取出的样本构成一个新的数据集，并且从同一个子类中有不同的样本被提取出来，那么在新数据集上聚类分析之后的结果，无论是聚类的数目还是类内样本都应该和原数据集相差不大。因此所得到的聚类相对于抽样变异越稳定，我们越可以相信这一样的聚类代表了一个真实的子类结构。重采样的方法可以打乱原始数据集，这样对每一次重采样的样本进行聚类分析然后再综合评估多次聚类分析的结果给出一致性(Consensus)的评估。

富集分析

基因组可以算突变率、转录组可以算基因表达水平、表观组可以观察甲基化水平、蛋白质组/代谢组可以看蛋白/代谢物丰度，甚至是宏基因组也可以比较菌群的丰度。最终，在分子水平的出口都是在生物学中心法则的核酸水平，确切的说是在基因水平，但是基因的种类有很多，包括蛋白编码基因（mRNA）、非编码基因（miRNA、lncRNA、snRNA等），理解这些基因所代表的生物学意义的最佳途径就是基因富集分析。

富集分析的原理。一个生物过程通常是由一组基因共同参与，而不是由单个基因独自完成。富集分析的基本前提假设是，如果一个生物学过程在已知的研究中发生异常，则共同发挥功能的基因极可能被选择出来作为一个与这一过程相关的基因集合。富集分析（Gene Set Enrichment Analysis, GSEA）通常是分析一组基因在某个功能节点上是否相比于随机水平过于出现（over-presentation）。富集分析原理可以由单个基因的简单注释扩展到多个基因集合的成组分析。

富集分析的作用。一组基因直接注释的结果是得到大量的功能节点，这些功能具有概念上的交叠现象，导致分析结果冗余，不利于进一步的精细分析，所以研究人员希望对得到的功能节点加以过滤和筛选，以便获得更有意义的功能信息。目前最常用的方法是基于GO和KEGG的富集分析。首先通过多种方法多的大量的感兴趣的基因，例如差异表达基因集、共表达基因模块、蛋白质复合物基因簇等，然后寻找这些感兴趣基因集显著富集的GO节点或者KEGG通路，这有助于进一步深入细致的实验研究。总而言之，富集分析是用来解读一组基因背后所代表的生物学知识，揭示其在细胞内或细胞外扮演了什么样的角色。

富集分析中常用的统计方法有累计超几何分布、Fisher精确检验等。由于在进行富集分析时通常需要同时进行大量检验（多重检验），所以需要采用多重检验校正的方法对检验结果进行校正，常用的校正方法包括Bonferroni校正、Benjiamini false discovery rate校正。

GO term功能富集

基因本体，即 Gene Ontology，是对所有基因的功能进行描述的本体数据库。该数据库将收录的基因本体按照术语描述的内容不同，将所有基因本体分为三大类，分别是描述分子功能的本体，描述细胞组分的本体以及描述生物过程的本体。

分子功能（Molecular Function）：描述发生在分子水平上的活性，这种活性一般都是由单个基因产物进行的活性，比如“催化活性”、“结合活性”、“转运蛋白活性”等。当然，还有小部分活性是通过基因产物的复合物进行的活性，比如“腺苷酸环化酶活性”、“Toll 受体结合”等。
细胞组分（Cellular Component）：描述某些大分子在执行某项分子功能时占据细胞的结构和位置。细胞的位置描述如“质膜的细胞质侧”，细胞的结构描述如“线粒体”，“核糖体”等。
生物过程（Biological Process）：描述了由一个或多个有组织的分子功能集合共同完成的一系列事件。广泛的生物过程术语如“细胞生理过程”、“信号传导”等。具体的生物过程术语如“嘧啶代谢过程”、“α-葡萄糖苷转运”等。

GO的注释体系是一个有向无环图，包含三个分支，注释系统中每一个节点都是基因或蛋白质的一种描述，节点之间保持严格的“父子”关系。因此，一个基因或蛋白质可以从三个层面得到注释。

富集的含义

这里pathway富集的含义与GO富集的含义相同，也是表示差异基因中注释到某个代谢通路的基因数目在所有差异基因中的比例显著大于背景基因中注释到某个代谢通路的基因数目在所有背景基因中的比例。因此，做pathway富集分析，也是涉及到前景基因和背景基因。前景基因就是你关注的要重点研究的基因集，背景基因就是所有的基因集。

单基因富集

单基因富集分析并不是说拿单个基因来进行富集分析，一个基因根本没法进行统计检验。而是基于单个基因来抓取与其相关的基因，然后用这些相关的基因来进行功能富集，有两种方法：差异法和相关法。

差异法：根据给定的一个基因的表达值对样本进行分组，然后计算组间的差异表达基因，进而利用差异基因进行富集分析。

相关法：计算给定的一个基因的表达值与其他基因之间的相关性，将具有显著相关的基因作为一个集合进行富集分析。

免疫组化分析

抗体和抗原之间的结合具有高度的特异性，免疫组织化学正是利用了这一原理。先将组织或细胞中的某种化学物质提取出来，以此作为抗原或半抗原，通过免疫动物后获得特异性的抗体，再以此抗体去探测组织或细胞中的同类的抗原物质。由于抗原与抗体的复合物是无色的，因此还必须借助于组织化学的方法将抗原抗体结合的部位显示出来，以期达到对组织或细胞中的未知抗原进行定性，定位或定量的研究。

免疫组化（immunohistochemistry，IHC）是应用免疫学基本原理——抗原抗体特异性反应原理，通过化学反应使标记抗体的显色剂（荧光素、酶、金属离子、同位素）显色来确定组织细胞内抗原（多肽和蛋白质），对其进行定位、定性及相对定量的研究。

免疫组化具有特异性强、敏感性高、定位准确、形态与功能相结合等多种优点，可应用于确定细胞类型、发现微小转移灶、了解分化程度、临床应用、肿瘤起源与分化、指导治疗与预后等多个方面。根据抗原抗体反应和化学显色的原理，组织切片或细胞样本中的抗原先和一抗结合，再利用一抗与生物素、荧光素等标记的二抗反应，从而可确定组织中某种抗原的定位，进而进行显色分析。

IHC将免疫反应的特异性和组织化学的可见性巧妙的结合起来，借助荧光显微镜和电子显微镜的呈像和放大，在细胞和亚细胞水平检测各种抗原物质。这种实验的独特之处在于它既直观的显示了蛋白在组织及细胞或细胞亚结构的定位，又保留了组织样品的结构特征，广泛应用于生物医学研究及临床诊断中。

CD8、CD68

CD8分子是一种白细胞分化抗原，为部分T细胞表面所具有的一种糖蛋白，用以辅助T细胞受体(TCR)识别抗原并参与T细胞活化信号的转导，又称为TCR的共受体。表达CD8的T细胞(CD8+T细胞)通常在活化后分化为细胞毒性T细胞(CTL)，能够特异性地杀伤靶细胞。

CD68是一种可以在单核细胞和巨噬细胞中高表达的跨膜糖蛋白。虽然在造血细胞系中低表达，但可通过PMA/TPA对CD68进行诱导。与溶酶体颗粒有关，是巨噬细胞最可靠的标记。

CD68表达于以下细胞中：单核细胞、巨噬细胞、粒细胞(只表达KP1，不表达PG-M1)、嗜碱性粒细胞、大淋巴细胞、破骨细胞、肥大细胞(只表达PG-M1，不表达KP1)、滑膜细胞(只表达PG-M1，不表达KP1)、朗格汉斯巨细胞、树突状网织细胞肉瘤和黑色素瘤。此抗体可用于真性组织细胞淋巴瘤、AML、粒细胞肉瘤(但注意B细胞淋巴瘤胞浆弱阳性)、Kikucki病中浆样单核细胞和肥大细胞增多症的诊断。

巨噬细胞

巨噬细胞（Macrophage, M）是一类位于外周血，炎症组织中的白细胞。在动物体内主要通过吞噬细菌，死亡细胞及细胞残片等作用参与非特异性免疫调节（先天性免疫）而随后将吞噬的物质消化并将其特征递呈倒后续淋巴细胞及其他免疫细胞参与特异性免疫调节（后天性免疫）。

Spearman相关性分析

Spearman相关，又称秩相关、等级相关，是对两变量的秩次大小作线性相关分析，对原始变量的分布不作要求，属于非参数统计方法，适用范围较广。对于服从Pearson相关的数据亦可计算Spearman相关系数，但统计效能更低。
Spearman相关系数(rs)介于-1与1之间，rs >0为正相关，rs rs的绝对值(|rs|)越大，变量间的相关性越强

Pearson相关性分析

Pearson相关性分析，需要满足5个条件：

条件1：两变量均为连续变量。

条件2：两变量应当是配对的，即来源于同一个个体。

条件3：两变量之间存在线性关系，通常绘制散点图检验。

条件4：两变量没有明显的异常值，通常绘制箱线图检验。异常值会对相关性分析的结果造成很大影响，如果存在异常值，应修改为正确值或进行变换去除，并在报告中指出。

条件5：两变量符从正态(或近似正态)分布，通常绘制Q-Q图或进行正态性检验。

CIBERSORT

CIBERSORT这款软件利用反卷积的方法，利用单细胞RNA-seq的数据，提取特征后，反推Bulk-seq各类细胞成分所占比例。

来源：LazyHaokj

声明：本站部分文章及图片转载于互联网，内容版权归原作者所有，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！