基因(蛋白)功能注释/富集分析 返回

基因(蛋白)常见的功能分析方法有:代谢信号通路(pathway)和GO(Gene ontology,基因本体论)分析。另外还有COG(Clusters of Orthologous Groups of proteins)、蛋白功能域(protein Domain)等分析。

 

功能分析的应用非常普遍,以通路分析为例,其相关的文献逐年增加,2015年相关的文献有42926篇(图1所示)。 所以说基因功能分析是一个非常普遍而且重要的分析内容。

 

GO和pathway都是研究基因功能的,那么它们的区别是什么呢?在这里跟小伙伴们科普一下:GO主要是研究基因功能的,而pathway是研究基因和蛋白功能的,是不是一目了然了?GO功能主要分成三大类:BP(生物学过程)、MF(分子功能)和CC(细胞组成);其中最常用的就是GO BP分析。常见的pathway数据由KEGG、Reactome、Biocarta等。

 

图片1-1-1图片2-2-2

功能分析主要分成两类:功能注释分析和功能富集分析。

 

功能注释分析是指对基因进行GO、pathway的注释(Annotation),例如DDR1基因参与GO:0001558 regulation of cell growth、GO:0007155 cell adhesion、GO:0031100 organ regeneration等20个生物学过程(GO BP)。

 

功能富集分析是指对一个基因集(gene sets)进行富集分析,使用超几何分布算法获得该基因集中的基因显著富集的功能。一般会有一个显著性的阈值,例如p<0.05。结果如图例所示。

报价:有参考基因组的功能注释/富集分析,每组每种500元;

无参考基因组的功能注释/富集分析,每组每种1000元;

 

图片3-3

图例: A代表通路图;B代表差异上下调基因的GO富集分析;C代表KEGG pathway富集分析; D代表GO和pathway富集分析

 

案例:胆道闭锁小鼠模型中肝外胆管和胆囊基因

研究目的

胆道闭锁(BiliaryAtresia,BA)是一种肝内外胆管出现阻塞并可导致淤胆性肝硬化天性胆道闭锁而最终发生肝功能衰竭的疾患。轮状病毒可导致小鼠患BA 疾病。本文利用轮状病毒感染新生小鼠构建的胆道闭锁的时间表达谱,分析疾病样本异常表达基因及其功能作用等,来阐述胆道闭锁模型的分子机制。

 

方法结果

一、实验设计

实验样本设计如下:盐水处理组织的对照样本,处理时间点为3天(Day 3 after normal saline injection,简称Day3_NS)、7天(简称Day7_NS)、**天(简称Day**_NS),每个时间点3个样本;轮状病毒处理组织的实验样本,处理时间点为3天(简称Day3_RRV)、7天(简称Day7_RRV)、**天(简称Day**_RRV),每个时间点3个样本。制作芯片。

 

二、表达数据预处理及差异表达分析

芯片数据首先使用R软件包RMA法预处理。随后将探针转换为对应的gene symbol。对于多个探针匹配同一个gene symbol,取这些探针均值作为基因最终表达值。

 

计算分析Day3_RRV vs. Day3_NS、Day7_RRV vs. Day7_NS、Day**_RRV vs. Day**_NS,三个对比组的差异表达基因。使用R包提供的T检验的方法计算差异表达基因的显著性P值。并使用BH方法矫正P值(即FDR)对于每个显著差异表达基因,要求其差异表达的FDR小于0.05,同时要求log2FC的绝对值不小于1

 

利用基因表达值可对多个数据集进行文氏图分析,快速筛选出重要基因。我们输入3个时间点差异表达基因和基因的log2FC值,观察3个时间点差异表达基因的异同。文氏图分析结果见图1。有115个上调基因同时出现在3个时间点中,但是下调基因只有1个。后续进一步分析这116个基因。

 

图片4-4

图1 VennPlex文氏图分析结果。0表示contra-regulated,指表达方向相反的基因,如day3和day7有1个表达方向相反的基因

 

三、差异表达基因功能富集分析

使用富集分析工具分别分析每个时间点中上调和下调基因分别参与GO功能和KEGG通路。参数富集基因个数count>=2,超几何检验显著性阈值Pvalue<0.05(视为显著富集结果)。

 

VennPlex文氏图得到116个差异表达基因在3个时间点表达变化方向一致,基因功能富集结果见表1。

表1 差异表达基因的功能富集分析(每种结果只显示TOP 5,其余的参见附表)

 

Category Term Count PValue
GOTERM_BP GO:0006955~immune response 53 9.85E-29
GOTERM_BP GO:0006952~defense response 48 5.82E-25
GOTERM_BP GO:0006954~inflammatory response 31 4.75E-19
GOTERM_BP GO:0009611~response to wounding 36 3.99E-18
GOTERM_BP GO:0006935~chemotaxis 20 1.33E-14
GOTERM_CC GO:0005576~extracellular region 76 4.66E-15
GOTERM_CC GO:0044421~extracellular region part 37 9.05E-08
GOTERM_CC GO:0005615~extracellular space 29 1.07E-07
GOTERM_CC GO:0009897~external side of plasma membrane 15 1.84E-05
GOTERM_CC GO:0009986~cell surface 18 3.13E-05
GOTERM_MF GO:0030246~carbohydrate binding 26 3.81E-10
GOTERM_MF GO:0003823~antigen binding 14 1.31E-09
GOTERM_MF GO:0004364~glutathione transferase activity 9 1.01E-08
GOTERM_MF GO:0016765~transferase activity 10 3.27E-07
GOTERM_MF GO:0030414~peptidase inhibitor activity 15 2.90E-06
PATHWAY mmu00480:Glutathione metabolism 16 1.84E-13
PATHWAY mmu00982:Drug metabolism 13 7.82E-08
PATHWAY mmu00980:xenobiotics by cytochrome P450 11 1.69E-06
PATHWAY mmu04062:Chemokine signaling pathway 17 2.51E-06
PATHWAY mmu04623:Cytosolic DNA-sensing pathway 8 2.04E-04

注:BP代表生物学过程;CC代表细胞组成;MF代表分子功能;pathway代表KEGG pathway;count代表富集的基因个数;p值为超几何分布结果。

 

四、交集基因分析

结合VennPlex文氏图分析结果,筛选出在3个时间点表达方向一致的基因。预测分析调控这些基因的转录因子。预测分析调控这些靶基因的转录因子。我们选择transfac和jaspar数据库中收录的转录因子和靶基因关系对。

 

图片5-5

图2 转录因子和靶基因调控网路,红色节点属于交集基因,三角形节点表示转录因子