样本数据达到多少统计指标才有意义?

论坛 期权论坛 期权     
匿名的论坛用户   2021-1-7 19:41   10554   10
此问题有点泛泛,各位老师回答的时候也可以分成几种情况分别给出答案。
当我们研究一组数据的统计指标。例如标准差,相关系数,一元线性回归的R平方等指标。很显然数据过少将不具备统计意义。真实数据当然是越多越好。通常来说样本数量最低标准是多少。样本数量少于多少将不具备统计意义?
我举个具体的例子请老师指教。对某公司连续五年的收入做一元线性回归。斜率0.8,r平方0.85。由此可以说过去5年的收入增长质量比较好吗?增长看斜率,质量看r平方。质量评判标准的逻辑是r平方越大,代表收入离散度越小(或者说波动越小),则收入质量越好(这种判断是纯主观判断,各位老师不必纠结于这个主管标准。)。
问题来了。如果只有两年的数据,那r平方应该是1。但是明显两年的数据没有统计学意义。如果是三年的数据呢?感觉统计意义比较弱。那超过多少年的数据,按照以上方法得出的数据才比较有意义。即可以说过去x年的增长质量的两个指标(斜率,r平方)具备了参考意义。注:有意义不是说可以预测未来,仅仅是评价过去
分享到 :
0 人收藏

10 个回复

倒序浏览
2#
热心的小回应  16级独孤 | 2021-1-7 19:41:53 发帖IP地址来自
不同的分布应该来说样本大小要的是不同的,即使是最简单的伯努利分布B~(n,p),想要获得的可信的p所需要的样本大小,也直接跟p的大小本身有关系。
有个对于伯努利分布来说有个很不错的不等式叫Chernoff Bound,它描述了n个符合同个伯努利分布的随机变量
的和
,与
的期望值的大小
之间的关系,公式是



直意上就是大数定理的意思,样本越多,样本平均值远离数学期望的概率就越低。
Chernoff bound还有绝对误差的版本,具体可以参考wiki
Chernoff bound - Wikipedia
3#
热心的小回应  16级独孤 | 2021-1-7 19:41:54 发帖IP地址来自
这是个很好的问题,事实上从开始学回归的时候这个问题就会出现在实际操作中。当有两个点的时候,因为两点确立一直线,所以完美拟合,
为1。
同理也可以外推到如果有n个参数,又正好有n个观测值得话,如果变量之间线性不相关,那么回归出的超平面正好穿过所有的点,这个时候
仍然是1。
这是因为
代表的是模型拟合度,所以自然而然是越简单的模型(变量越少)越难拟合,数据越少的回归拟合度可能反而较高。
为什么越简单的模型越难拟合呢,考虑两个模型:


我们很容易看到模型1是嵌套在模型2之中的,当加入额外的回归项
之后,模型2的
至少不低于模型1的

而为什么数据越少的回归拟合度可能反而越高,这是因为数据越多你控制不到的变量就越多,控制不到的变量代表着数据中未观察到的异质性(unobserved heterogeneity),异质性的存在也会降低模型的拟合度。
那么数据是不是越少越好呢?当然不是,相反数据是越多越好,因为只有数据多了,你才可以构造更多的控制变量。最简单的例子:
如果只有一个观测值,那么你只能估计这样的模型
,这个时候
是1。
当你有两个观测值的时候,你可以估计一个简单线性模型
,这个时候
仍然是1,因为当你多了一个观测值的时候,你的数据中就包含了额外的信息,这样的信息可以帮助你识别截距。
当你有三个观测值的时候,那么你可以将模型拓展到非线性的情况下
,这个时候如果
不是为1的常数或者
二元变量的话,回归存在唯一解并且
为1。
所以所谓的样本量越小统计指标越没有意义只是对于
理解上的偏误,从统计角度上来说样本数据当然是越大越好,就好像做菜一样,材料越多越容易做出好的菜肴。只是有些厨师可能选择太多了反而不知道怎么选,材料多了可能反而没办法发挥正常的厨艺。大样本的好处这里不说很多,只说一点,我们通常知道线性回归的系数方差是:

方差意味着估计带来的不确定性,这意味着当样本数量很大的时候,我们几乎可以百分百确定我们的估计到的系数就是真实的系数值。而当只有两个变量的时候因为
的无偏估计是:

如果我们有
的时候,
,这个时候
,估计没有任何意义。
4#
热心的小回应  16级独孤 | 2021-1-7 19:41:55 发帖IP地址来自
这个问题可以提炼为:
样本量最少达到多少才可以反应总体的特征?

例如,我们做标签nlp模型时,对于模型输出的10000条记录,怎么样在有限的人力和时间内,最大限度的了解这批数据的准确性呢?
估计做推荐系统的都有痛彻心扉的感受,哈哈
离开“置信区间”和“置信水平”谈最少样本量都是耍流氓。
1)置信区间
统计学中,一个概率样本置信区间Confidence intervalCI),是对这个样本的某个总体参数区间估计。置信区间展现的是,这个总体参数的真实值有一定概率落在与该测量结果有关的某对应区间。

2)置信水平
置信区间给出的是,声称总体参数的真实值在测量值的区间所具有的可信程度,即前面所要求的 “一定概率”。这个概率被称为置信水平
有时候也叫:置信度。
例如,美国大选中,川普的支持率为 55%,而置信水平 0.95 上的置信区间是 (50%,60%),那么他的真实支持率落在 50% 和 60% 之区间的机率为 95%,因此他的真实支持率不足 50% 的可能性小于 2.5%(假设分布是对称的)。
言归正传。
很幸运有一个工具可以帮我们快速的确定最小样本量:Sample Size Calculator
Sample Size Calculator
找到你的置信区间如上图所示,其中:
1)Confidence Level:置信水平/置信度
2)Sample Size:样本大小
3)Population:总体大小
4)Percentage:错误率
结果就是:
Confidence Interval:置信区间
例如上图,置信水平/置信度为95%,样本有1000个,总体有100000个,在错误率50%(一半错误一半正确,这是可接受的最差情况了),置信区间为+-3.08


寻找最少样本量如上图所示:
1)Confidence Level:置信水平/置信度
2)Confidence Interval:置信区间
3)Population:总体数量
结果就是:
4)Sample size needed:最少需要的样本量



如果你看明白以上的内容,那么看看下面这个有趣的问题,用到上面的知识:
一个池塘养了一群鱼,怎么快速估计出这个池塘里面鱼的数量?还八九不离十
条件:只能用手捞上来,数清楚再放进去,杠精自觉消失
参考答案:
先捕上A条,做上标记(随便你怎么做标记,温柔点就挂个label,残忍点的就剪掉鱼鳍)
再放回池塘
让鱼儿们游一会(important!为什么?)
再捞上来A条,数一下有记号的鱼有B条
那么:A/总=B/A(为什么?)
所以:总数=n^2/x 条鱼

觉得不放心,可以多次重复
5#
热心的小回应  16级独孤 | 2021-1-7 19:41:56 发帖IP地址来自
Power analysis 了解一下。
6#
热心的小回应  16级独孤 | 2021-1-7 19:41:57 发帖IP地址来自
       R方,标准差等统计指标用来解释样本是没问题的,比如R方在样本很少的时候接近或等于1,说明在这些样本中变量直接确实存在很强的线性关系。问题只是出现在样本太少不能很好的推断总体指标,而人们又习惯对总体下结论。
       在统计中,样本量越大,估计的精度越高。确定最小的样本量在不同的场合使用不同的方法。一般都要人为的确定置信区间和置信水平,通过参数估计的公式反推出样本量。
7#
热心的小回应  16级独孤 | 2021-1-7 19:41:58 发帖IP地址来自
如果是描述统计,我觉得越逼近总体越好。这个事情分的是有钱和没钱,而不是有意义和没意义。
如果是推断统计,要看研究对象的复杂程度。研究斑马鱼、小鸡什么的话,可能十来个就够了。这种对象又不像猴子那么难伺候,样本量小是因为不需要大吧。研究人的话,太大、太小都不行。太大了呢,样本异质性大,你怎么就确定这个回归系数显著不是别的变量的副作用?太小了呢,容易发生全距限制;原本变量在总体中可能有直线或者曲线的相关,但你截了一小段,散点图画出来就是一团。就算你能保证随机采样,因为样本小,采了甲不采乙可能得到一种结果,采了乙不采甲可能是另一种结果,非常不稳定。理想的情况是,不论样本量大小,你所关注的变量变异充分,你所不关注的变量几乎没有变异。
其他答案有说到样本量估计的。他们是说,在频率学派中,给定假阳性和假阴性的阈限,以及估计的效应量,可以求出相应的样本量。别的学科我不了解,但就心理学这些效应量,要想达到令人满意的阈限,得出的样本量是99%的实验室都负担不起的。所以我觉得这类问题没什么意思,说到底就是一个字——
[h1]穷[/h1]所以有的人说你们科学家怎么一会儿这样一会儿那样呢!小样本那么波动你赖我做什么?你要是把钱砸足了,我保证每个人都能一样。
8#
热心的小回应  16级独孤 | 2021-1-7 19:41:59 发帖IP地址来自
好多人并不认可样本大于30个即大样本的说法。
那么,关于小样本的处理,我处理过最小的样本数是12,除了做一些基本分类分析,再也无法做出其他更多的处理。
回到正题,我认为低于30个的样本量就已经极难处理了。最起码,我随机抽样实验然后逼近总体样本的机会还是需要的。少于30个,随机抽样根本无法做,那么,简单的归类分析就是唯一选择。
9#
热心的小回应  16级独孤 | 2021-1-7 19:42:00 发帖IP地址来自
就像你问题里面说的,样本量的大小需要具体问题具体分析。
我们都知道,经典统计理论中,n>30就可以被称作大样本。但是在现实中,population的概念往往很宽泛,我们寻找样本时也不可能找到如此完美、具有代表性的样本。
所以还是要看你的问题是什么?如果问题考察的是一个宽泛的群体,那么样本量势必要较大才可以;如果问题聚焦在限制条件很多的一群人,那么样本量就可以向下调整,只要保证CLT能够发挥作用就可以。
举例:我们日常在做行业扫描的网络调研时,一般样本量都要在10000人以上;如果有一定条件的限制的话,样本量可以缩到3000;当在做一些较为具体的案例研究时,样本量还会进一步缩小,因为附加条件越多,符合条件的样本势必越少。
10#
热心的小回应  16级独孤 | 2021-1-7 19:42:01 发帖IP地址来自
bootstrap就是一种非常有用的小样本统计方法。
11#
热心的小回应  16级独孤 | 2021-1-7 19:42:02 发帖IP地址来自
有个软件叫PASS 我们计算样本量就用这个
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:3118703
帖子:623848
精华:0
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP