如何使用excel计算统计结果的FDR值

论坛 期权论坛 期权     
基迪奥生物   2019-7-13 16:41   2901   0
在OS平台的在线课堂“谈谈RNA-seq和GWAS中的p value 和 Q value”课程中,我们提到过:在一般情况下,可以认为 FDR = Q value = adjusted p value。在所有从p value 估算 Q value的公式中,Benjaminiand Hochberg 的方法(简称BH法)是使用最广泛的。

从p value 估算Q value,使用 R语言的 p.adjusted 命令就可以轻松完成。如果对于R语言不熟悉的老师,其实也可以使用excel软件完成。

今天,就给大家介绍使用excel 计算 Q value的方法

首先,大家要了解一下 BH的计算公式:
BH法的计算公式是:
Q value = p *(m/k)
其中,m是检验的次数,k是这次检验的p value在所有检验中的排名。
例如,我们对10000个基因进行表达差异分析。那么每个基因都会得到一个p value。现在,我要估算每个基因对应的Q value,就可以用以上公式计算。由于检验次数是10000次,理论上m=10000。然后将所有基因的p value从小到到大排序,确定每个基因对应的k值。

如果一个基因对应的p value在10000个基因中排名第一,那么这个基因对应的k=1。如果一个基因对应的p value在 10000个基因中排名第100,那么这个基因对应的k=100。

下面,就给大家演示使用excel 计算Q value。

1
打开一个表达差异分析结果的excel文件

这个文件一共有10000个基因的检验结果,1个基因1行,第I列是每个基因对应的P值。




2
过滤检验失败的基因

由于某些原因,例如一个基因没有表达或表达量过低,无法进行显著检验。那么这个基因就不该被计入有效的检验。我们需要先将这样的基因排除。在我们的数据中,无法检验的位点被标注为NA。

在excel 中,点选“排序和筛选”→ “筛选”。然后选择“pvalue”这列。然后我们可以将结果是NA的行挑选出来,并将他们剔除。记住:是删除,因为在后续分析中它们没有什么用了。如果保留会影响我们后续的排序。

删除后还剩下 7276个基因。那么m值=7276。




3
对p值排序,确定每个基因的k值

a. 点击 Pvalue这列,点击“全选”,并选择“升序”,那么基因将以p值从小到大排序;




b. 新建列,填写每个基因的k值。

在Pvalue之后的一列(J列),填写表头名称“K”,并在下面一行填写1;(因为这个基因p值最小,k=1




将鼠标移动到表格(红框中的表格)的右下角,鼠标指针会变为“+”。按住键盘“ctrl”键,并按下鼠标左键不放(注意,别松开),然后沿着这一列往下拉拽。这步骤的目的是给这一列所有行填上k值。Excel会按照递增的原则给后续的行赋予k值。(这就是excel自动递增填数字的方法

拉拽会花费一些时间。一口气拉到表格的最后一行,才可以松开鼠标左键。但最后的效果如下。每个基因按照显著性排名,会被赋予一个k值。




4
计算Q值

在“K”值后一列,在表头填写:“Qvalue”,然后这一列的第一个基因(k=1)这一行,填写Qvalue的计算公式,如下图红框中的内容。计算公式是:=I2*7276/J2。

其中:I2代表I列第二行,就是这个基因的p value,7276是m值,就是完成有效检验的基因数(检验次数);J2代表J列第二行,就是这个基因的K值。

计算出来这个基因的Q value是 3.89E-02。




然后,我们需要将利用这个公式将每个基因的Qvalue计算出来。很简单,你只需要将这个公式填写 7276遍。预计1个通宵可以填完(不是吧……)。

当然,just a joke(我就知道没那么坑~).还有一种1秒钟搞定的方法。Excel也有模仿上一行的公式,自动填写后续行的功能。

将鼠标移动到第一个基因的Qvalue值对应的方框(红框内)的右下角,指针再次变为“+”。




然后按住键盘Ctrl键,鼠标左键双击这个表框的右下角,excel按照这个方框的计算公式,自动将这一列后续所有的行填满。效果如下:




5
挑选显著的基因

然后筛选差异基因。我按照Q value< 0.1为阈值筛选(Q value阈值的选取,在我们的在线课堂介绍过)。在这份数据中,差异基因的数量就是171个。




好了,今天使用excel计算Q value的教程就介绍到这里,其实我们介绍了两点内容:
  • BH公式的逻辑;
  • Excel的使用。

这个方法简单方便,可以用在任何需要多重检验校正的地方。例如:基因表达差异分析、功能富集分析、检测多个酶活指标等等。

如果你看完这篇文章觉得不过瘾,想了解更多GWAS相关的统计知识,想跟基迪奥的技术人员更深刻地探讨沟通。那么你可能需要参加一个真正专业的、干货的重测序生信培训班。

那么现在刚刚好,有一个重测序生信培训班,即将在广州7月22-26日开班,由基迪奥周老师与基迪奥重测序项目流程开发负责人谢坤主讲。5天的培训时间里,将获得基迪奥大量重测序项目经验的分享,数据分析挖掘技巧,知无不言言无不尽。

培训课程表



本次培训班名额有限,仅招40人。按照以往基迪奥举办同类主题培训班的受欢迎程度,想要参加培训的老师要抓紧时间报名啦。

培训时间:2019年7月22~26日  
报名费:5000元(交通费与食宿费自理)
付款方式:转账
报名方式:
1. 长按图片识别二维码,填写信息报名(二维码见下方)
2. 发送姓名、单位、电话到邮箱contact@genedenovo.com,主题注明报名“重测序培训班
报名流程:初步提交报名信息→转账→报名成功
客服:020-39341079



— 报名二维码 —

今天的内容就到这里啦~

======================================

微信公众号经常“作妖”升级,为了不错过基迪奥公众号的精彩内容分享,欢迎星标一下我们,再也不怕错过精彩的干货内容啦~


分享到 :
0 人收藏
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:
帖子:
精华:
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP