统计学的T检验 F检验和T分布 F分布是一个概念吗，怎么理解呢？

数签签 · 2018-9-28 00:21:49

显然不是一个概念，但两者紧密联系，分布是检验的基础、依据，检验算是分布的应用。但常称的T检验、F检验由于用途广泛，已经明显工具化，有一定指向性。
更一般的来说，若随机变量X服从已知M分布，便可以利用M分布对X的取值是否显著异于分布期望值进行检验。令随机变量X的期望为EX，随机抽取总体X中的某一样本x，根据X的分布M，x取值出现在包含期望值EX的（a，b）范围（置信区间）内定义为大概率事件（概率为95%或其他），通常设x=EX为原假设，若x取值出现在（a，b）外，则可拒绝原假设，认为x显著异于EX；否则，不能拒绝原假设，认为x取值与EX无显著区别。
T分布、F分布是统计推断中重要的常见抽样分布，通过构造可以满足t分布或者F分布的随机变量t、f（只不过，这里随机变量t、f有特殊的形式，由满足正态分布、卡方分布的随机变量组合而成），来进行统计推断的方法称为T或者F检验。
具体数理推导、性质和应用，可见各大教科书和其他答案。
此外还有些要点有助于题主加深理解
1、（总体）分布是对随机变量x的描述，主要包括x的取值与对应的概率两个维度，将概率视为随机变量x的函数即为概率密度函数f（x），将x~f（x）的映射表示在x-y坐标轴上，便是更为直观的随机变量x的（概率）分布。
2、参数是能反映（总体）分布特征的描述，如果有具体的密度函数形式x~f（x；a，b，c），a，b，c便是反映分布的总体参数；若不知具体形式，利用不同阶的矩也能描述分布的形态特征，比如常用均值（一阶矩）反映分布的聚集情况，用方差（二阶矩）反映分布的离散情况，还有峰度、偏度等。
3、样本统计量是能反映样本分布特征描述，利用样本统计量（也叫估计量）去估计总体参数的方法称为参数估计。
4、样本统计量（估计量）也是随机变量，样本统计量（比如样本均值、样本方差，但不限于这些）的取值取决于从总体中所选择的特定样本（集），若有条件可以重复选择n次，每次包含m个样本的样本集，就可以有n个样本均值。
5、根据某一样本（集）数据所计算的估计量m的取值a就是估计值，依据估计量m所服从的M分布进行M检验
6、抽样分布是有关样本统计量的已知分布，可以用样本统计量构造满足已知抽样分布的随机变量，从而对样本统计量的估计值进行检验。卡方分布、t分布、F分布都是常见的已知抽样分布，小样本下，容易利用样本统计量（比如样本均值、方差等）来构造满足抽样分布的卡方统计量、t统计量（服从t分布的随机变量的称呼）、F统计量，进一步对样本统计量的估计值进行检验。
相关分布的数理性质大家都回答了很多，各分布的来历、更多其他细节也可以参考专栏张老师漫谈六西格玛

shana · 2018-9-28 00:21:50

首先你先要清楚什么叫t统计量。
我们喜欢标准正态样本，那么就需要正太统计量(beta-E（beta）)/sigma_beta
，这就是标准正态分布，但是我们既不知道实际xbar，也不知道sigma。
所以我们构建t统计量，

实际上，beta_hat和mse都是我们能够计算出来的，所以需要T统计量，真实的beta和sigma我们并不知道……
MSE是对于sigma的估计，E(MSE)=sigma^2 （这里不详细讨论了），其实是一种替换。
我们根据这个东西构建了统计量，所以这个逻辑是先构建我们需要的分布，然后发现这个分布很有用，然后构建统计量，而不是反过来。
一般的，我们做t检验，都是H0：beta_hat1=0，所以beta_hat/sqrt（MSE/Sxx）是我们要检验的t值，与T的分布比较就ok。

11.43=beta1_hat/2.1888F检验呢？

SSE是残差平方和。
r是指reduced model，也就是说H0：某个beta 就好比beta1_hat=0
那么，就是对于beta0的回归，少了beta1的SSE，就是SSEr，
SSEf是完整模型的SSE，也就是我们一般意义上的SSE。
dff是full model的自由度n-1，dfr是reduced model 的自由度n-2。
经过推倒，对于simple linear regression，f_calc=SSR/MSE。

同样的，构造这个分布，我们也需要对应的统计量来计算相应的level test。

记得原来问题好像有T分布和F分布有什么关系。。。。我顺便提一句。

也就是说，
。有什么效果呢？在simple linear regression中，beta1的t平方=f。

notice:11.43^2=130.58.

结论：
1为了检验beta_hat我们需要检验。其中就包含的T检验与F检验。
2为了得到检验level，构建了相应的统计量。
3
，其出现的情况有例子说明。
ps上面的例子都是simple linear regression的……

复旦小张 · 2018-9-28 00:21:51

来源于网络，个人认为说的还不错。

T检验与F检验的区别_f检验和t检验的关系
1，T检验和F检验的由来
一般而言，为了确定从样本(sample)统计结果推论至总体时所犯错的概率，我们会利用统计学家所开发的一些统计方法，进行统计检定。
通过把所得到的统计检定值，与统计学家建立了一些随机变量的概率分布(probability distribution)进行比较，我们可以知道在多少%的机会下会得到目前的结果。倘若经比较后发现，出现这结果的机率很少，亦即是说，是在机会很少、很罕有的情况下才出现；那我们便可以有信心的说，这不是巧合，是具有统计学上的意义的(用统计学的话讲，就是能够拒绝虚无假设null hypothesis,Ho)。相反，若比较后发现，出现的机率很高，并不罕见；那我们便不能很有信心的直指这不是巧合，也许是巧合，也许不是，但我们没能确定。
F值和t值就是这些统计检定值，与它们相对应的概率分布，就是F分布和t分布。统计显著性（sig）就是出现目前样本这结果的机率。
2，统计学意义（P值或sig值）
结果的统计学意义是结果真实程度（能够代表总体）的一种估计方法。专业上，p值为结果可信程度的一个递减指标，p值越大，我们越不能认为样本中变量的关联是总体中各变量关联的可靠指标。p值是将观察结果认为有效即具有总体代表性的犯错概率。如p=0.05提示样本中变量关联有5%的可能是由于偶然性造成的。即假设总体中任意变量间均无关联，我们重复类似实验，会发现约20个实验中有一个实验，我们所研究的变量关联将等于或强于我们的实验结果。（这并不是说如果变量间存在关联，我们可得到5%或95%次数的相同结果，当总体中的变量存在关联，重复研究和发现关联的可能性与设计的统计学效力有关。）在许多研究领域，0.05的p值通常被认为是可接受错误的边界水平。
3，T检验和F检验
至于具体要检定的内容，须看你是在做哪一个统计程序。
举一个例子，比如，你要检验两独立样本均数差异是否能推论至总体，而行的t检验。
两样本(如某班男生和女生)某变量(如身高)的均数并不相同，但这差别是否能推论至总体，代表总体的情况也是存在著差异呢？
会不会总体中男女生根本没有差别，只不过是你那么巧抽到这2样本的数值不同？
为此，我们进行t检定，算出一个t检定值。
与统计学家建立的以「总体中没差别」作基础的随机变量t分布进行比较，看看在多少%的机会(亦即显著性sig值)下会得到目前的结果。
若显著性sig值很少，比如比较，依赖于总体数据集里结论一致的支持性证据的数量，依赖于以往该研究领域的惯例。通常，许多的科学领域中产生P值的结果≤0.05被认为是统计学意义的边界线，但是这显著性水平还包含了相当高的犯错可能性。结果 0.05≥P>0.01被认为是具有统计学意义，而0.01≥P≥0.001被认为具有高度统计学意义。但要注意这种分类仅仅是研究基础上非正规的判断常规。
5、问：所有的检验统计都是正态分布的吗？
答：并不完全如此，但大多数检验都直接或间接与之有关，可以从正态分布中推导出来，如t检验、F检验或卡方检验。这些检验一般都要求：所分析变量在总体中呈正态分布，即满足所谓的正态假设。许多观察变量的确是呈正态分布的，这也是正态分布是现实世界的基本特征的原因。当人们用在正态分布基础上建立的检验分析非正态分布变量的数据时问题就产生了，（参阅非参数和方差分析的正态性检验）。这种条件下有两种方法：一是用替代的非参数检验（即无分布性检验），但这种方法不方便，因为从它所提供的结论形式看，这种方法统计效率低下、不灵活。另一种方法是：当确定样本量足够大的情况下，通常还是可以使用基于正态分布前提下的检验。后一种方法是基于一个相当重要的原则产生的，该原则对正态方程基础上的总体检验有极其重要的作用。即，随着样本量的增加，样本分布形状趋于正态，即使所研究的变量分布并不呈正态。
6、问：假设检验的内涵及步骤
答：在假设检验中，由于随机性我们可能在决策上犯两类错误，一类是假设正确，但我们拒绝了假设，这类错误是“弃真”错误，被称为第一类错误；一类是假设不正确，但我们没拒绝假设，这类错误是“取伪”错误，被称为第二类错误。一般来说，在样本确定的情况下，任何决策无法同时避免两类错误的发生，即在避免第一类错误发生机率的同时，会增大第二类错误发生的机率；或者在避免第二类错误发生机率的同时，会增大第一类错误发生的机率。人们往往根据需要选择对那类错误进行控制，以减少发生这类错误的机率。大多数情况下，人们会控制第一类错误发生的概率。发生第一类错误的概率被称作显著性水平，一般用α表示，在进行假设检验时，是通过事先给定显著性水平α的值而来控制第一类错误发生的概率。在这个前提下，假设检验按下列步骤进行：
1）、确定假设；
2）、进行抽样，得到一定的数据；
3）、根据假设条件下，构造检验统计量，并根据抽样得到的数据计算检验统计量在这次抽样中的具体值；
4）、依据所构造的检验统计量的抽样分布，和给定的显著性水平，确定拒绝域及其临界值；
5）、比较这次抽样中检验统计量的值与临界值的大小，如果检验统计量的值在拒绝域内，则拒绝假设；
到这一步，假设检验已经基本完成，但是由于检验是利用事先给定显著性水平的方法来控制犯错概率的，所以对于两个数据比较相近的假设检验，我们无法知道那一个假设更容易犯错，即我们通过这种方法只能知道根据这次抽样而犯第一类错误的最大概率（即给定的显著性水平），而无法知道具体在多大概率水平上犯错。计算 P值有效的解决了这个问题，P值其实就是按照抽样分布计算的一个概率值，这个值是根据检验统计量计算出来的。通过直接比较P值与给定的显著性水平α的大小就可以知道是否拒绝假设，显然这就代替了比较检验统计量的值与临界值的大小的方法。而且通过这种方法，我们还可以知道在p值小于α的情况下犯第一类错误的实际概率是多少，p＝0.03α，那么假设不被拒绝，在这种情况下，第一类错误并不会发生。
7、问：卡方检验的结果，值是越大越好，还是越小越好？
答：与其它检验一样，所计算出的统计量越大，在分布中越接近分布的尾端，所对应的概率值越小。
如果试验设计合理、数据正确，显著或不显著都是客观反映。没有什么好与不好。
8、问：配对样本的T检验和相关样本检验有何差别？
答：配对样本有同源配对（如动物实验中双胞胎）、条件配对（如相同的环境）、自身配对（如医学实验中个体的用药前后）等。（好像没有解释清楚啊，同问这个，到底什么区别呢？）
9、问：在比较两组数据的率是否相同时，二项分布和卡方检验有什么不同？
答：卡方分布主要用于多组多类的比较，是检验研究对象总数与某一类别组的观察频数和期望频数之间是否存在显著差异，要求每格中频数不小于5，如果小于5则合并相邻组。二项分布则没有这个要求。
如果分类中只有两类还是采用二项检验为好。
如果是2*2表格可以用fisher精确检验，在小样本下效果更好。
10、问：如何比较两组数据之间的差异性
答：从四个方面来回答，
1）.设计类型是完全随机设计两组数据比较，不知道数据是否是连续性变量？
2）.比较方法：如果数据是连续性数据，且两组数据分别服从正态分布&方差齐（方差齐性检验），则可以采用t检验，如果不服从以上条件可以采用秩和检验。
3）.想知道两组数据是否有明显差异？不知道这个明显差异是什么意思？是问差别有无统计学意义（即差别的概率有多大）还是两总体均数差值在哪个范围波动？如果是前者则可以用第2步可以得到P值，如果是后者，则是用均数差值的置信区间来完成的。当然两者的结果在SPSS中均可以得到。
11、问：回归分析和相关分析的联系和区别
答：主要联系有：回归分析和相关分析是互相补充、密切联系的，相关分析需要回归分析来表明现象数量关系的具体形式，而回归分析则应该建立在相关分析的基础上。
主要区别有:

一,在回归分析中,不仅要根据变量的地位,作用不同区分出自变量和因变量,把因变量置于被解释的特殊地位,而且以因变量为随机变量,同时总假定自变量是非随机的可控变量.　　在相关分析中,变量间的地位是完全平等的,不仅无自变量和因变量之分,而且相关变量全是随机变量.

二,相关分析只限于描述变量间相互依存关系的密切程度,至于相关变量间的定量联系关系则无法明确反映.　　而回归分析不仅可以定量揭示自变量对应变量的影响大小,还可以通过回归方程对变量值进行预测和控制.

相关分析与回归分析均为研究2个或多个变量间关联性的方法，但2种数理统计方法存在本质的差别，即它们用于不同的研究目的。

相关分析的目的在于检验两个随机变量的共变趋势（即共同变化的程度），回归分析的目的则在于试图用自变量来预测因变量的值。

在相关分析中，两个变量必须同时都是随机变量，如果其中的一个变量不是随机变量，就不能进行相关分析，这是相关分析方法本身所决定的。

对于回归分析，其中的因变量肯定为随机变量（这是回归分析方法本身所决定的），而自变量则可以是普通变量（有确定的取值）也可以是随机变量。