基因富集分析(Gene Set Enrichment Analysis,GSEA)是一种针对全基因组表达谱芯片数据的分析方法,将基因与预定义的基因集进行比较。即综合现有的对基因的定位、性质、功能、生物学意义等信息基础,构建一个分子标签数据库,在此数据库中将已知基因按照染色体位置、已建立基因集、模序、肿瘤相关基因集和GO基因集等多个功能基因集进行分组与归类。通过分析基因表达谱数据,了解它们在特定的功能基因集中的表达状况,以及这种表达状况是否存在某种统计学显著性。 统计过程:1.计算富集分数。2.估计富集分数的显著程度。3.校正多重假设检验。
数据准备:主要准备一个表达矩阵和一个分组说明的cls文件,软件界面如上图,操作简单,按照步骤Load data and run就行了,比较需要注意的是准备表达矩阵,如果选取的是GEO的公共数据集,就要将数据集进行预处理(采用R/bioconductor Affy和affyPLM程序包对数据集原始CEL文件进行质量控制后,使用Affy程序包中rma算法对该数据集进行进行预处理。),因为GSEA只支持特定的格式,所以要剔除不必要的信息,将癌组织和对应的癌旁组织的数据分别提取出来分别作为两组的表达矩阵(gct文件)以及分组文件(cls文件)(此步骤可以手动excel整理也可以找个代码模板用R来操作)
data preparing:
1.如果是自己已经排序好了的基因,可以直接拿来做GSEA分析的见: GSEAPreranked Page in the GSEA User Guide.
2.如果是affymetrix的表达矩阵,不需要提前进行Present/Marginal/Absent Calls. 来过滤掉一些表达探针,GSEA需要各种情况的表达数据。
3.如果是gct and pcl 的表达矩阵,缺失值空着就好了。但是如果缺失值太多了,这样在计算signal-to-noise的时候,不同group的样本数就不一致了,mean和SD都会变好,最好是避免这样的情况,可以考虑进行插值,或者过滤掉这样的探针。
成功导入数据后,点击RUN GSEA,这时候要指定几个参数的选择,就是你要用哪些标签数据库来进行分析,以及如何分组等。 1. Expression dataset:输入的表达矩阵 2. Gene sets database:分析的数据库 3. Number of permutations:置换检验的次数 4. Phenotype labels:选择比较组,如果你输入的文件就只有2个组别的话,这个就很方便选一个就行了;如果你输入的有三个组别及以上的话,则这里就要跟你的需要选择两个组别的比较组,而且GSEA也会根据你的组别信息去表达矩阵中提取相对应的数据。 5. Collapse dataset to gene symbols: 如果你已经ID转化为HUGO gene symbol,那么这里选FALSE,否则选择TRUE。 6. Permutation type:选择置换的类型,是random phenotype还是random gene sets,一般每组样本数目大于7个时,建议选择phenotype,否则选择gene sets。
Chip platform:选择芯片类型,是对ID进行注释,即ID转化,选择ID对应的chip文件即可,如果已自行转化了ID的话,则空着就行(那么Collapse dataset to gene symbols应选择否)
提交之后,如果运行失败会出error提示,成功的话直接进入success的界面。
结果的解读:
431/899表示在WT这一分组中,一共有899个功能基因集,其中421个上升
99个基因集的FDE小于25%
118个基因的名义P值小于1%
118个基因的名义P值小于5%
点击snapshot可以看富集结果,就是下图Enrichment plot
点击enrichment result in html 可以查看所有的富集分析结果,进去之后可以点开查看每个Enrichment plot的参数。
点击enrichment result in excel就可以直接下载附带结果的excel。
SIZE:表示基因集里的基因数量
ES(enrichment score):富集分数
NES(normalized enrichment score):表示校正后的富集分数
NOM p-val (nominal p value ): 名义P值
FDR q-val(false discovery rate):错误发现率
FWER p-val:用bonferonni校正后的P值
RANK AT AMX:ES值对应的通路基因排名
Leading-edge subset:对富集贡献最大的基因成员,即领头亚集,用于定义Leading-edge subset的参数有:Tags,List,Signal。