正态分布里的西格玛_七大数据陷阱之油腻的统计学:正态分布来了

论坛 期权论坛 编程之家     
选择匿名的用户   2021-6-2 15:49   3052   0

a6314a13cfcb7186e74e0ba81b455c4f.png

上一篇中,我们给出了2018年美国职业橄榄球联盟的男性球员六个维度的平均数据,并详细分析了第一个维度,也就是球员球衣号码的数据分布服从均匀分布的情况,没有看的朋友可以先回看一下。

6dd124cb58007b953d0353173c270f1f.png

这里接着讲上图中的B图

B.正态分布:球员身高

NFL球员的身高数据分布形态非常类似于高斯分布,也就是正态分布,如下图所示。

正态曲线是在统计学界被誉为是神一样的存在,是诸多在统计学意义上进行比较的基础,既是一种超级强大的工具,也是重大错误产生的温床。

8308e5402811b373f568c21b44ce2ea5.png

在2018年季前赛期间, 名单上所有球员的平均身高是73.7英寸,或略低于6英尺2英寸,标准差是3.2英寸。

标准差(Standard deviation, 简写为SD,时常会用希腊字母 σ标识)是用来刻画数据偏离中心的程度,一般而言,通过取方差的平方根来计算,方差就是数据点离均值距离平方的期望值。

在一个正态分布或高斯分布的情况下,平均值和标准偏差可以决定曲线的形状。

如下若所示

5b7714f2d05ef9c4bc0511dbb28770e0.png

经验上,在使用高斯分布时,有个所谓的“68 - 95 - 99.7规则”: 大约68%的值分布在距离中心正负一个标准差的区间内,95%在正负两个标准差区间内, 而99.7%在正负三个标准差范围内,可见正态分布真的有些意思。

这条曲线从何而来,做什么用的?在我们进一步讨论足球运动员的属性之前,先来回顾下这段统计学上的不可回避的历史。

正态曲线的由来普及与麻烦

18世纪的赌客们常常雇佣统计学家手工帮忙计算赔率,而这种计算显然是非常耗时的。

其中一位统计学家亚伯拉罕德莫夫雷(Abraham De Moivre)发现,随着抛硬币总数的增加,多次抛硬币后,得到一定数量的正面或反面的概率越来越接近一种钟形的曲线。

伽利略后来发现,天文测量数据中的误差分布也近似的符合一条类似的曲线,这就导致了关于这条曲线方程的几种假设。

大约在同一时期,数学家罗伯特·阿德瑞恩(Robert Adrain)和卡尔·弗里德里克·高斯(Carl Friedrich Gauss)分别在1808年和1809年独立地推导出了这条曲线的方程。

比利时的Adolphe Quetelet,建立过身体质量指数(body mass index,BMI),后来将正态分布应用于社会科学,以及自然变量,如人类身高、体重和力量,目前为大家广泛使用。

从20世纪90年代末开始,由于前通用电气(General Electric)首席执行官杰克·韦尔奇发起了“六西格玛(Six Sigma)”运动,向许多在大学里从未上过一堂统计入门课的商人们介绍了正态曲线和标准差统计的概念;

同时也唤起了很多相关专业背景人的记忆,为其职业道路打开了一扇窗口。

应该说,这场运动,对正态曲线的应用起到了普及作用。

所谓的六西格玛,也就是指在正态分布曲线中,距离中心,正负三个标准差的范围,而这涵盖了99.99966%的数据,一个标准的六西格玛项目包括五个阶段:定义、测量、分析、改进和控制,缺一不可。

然而,这场运动的狂热者急切的将测量和改进过程的方法应用甚至是套用到交易和制造的过程中,不管这些过程是否显示出稳定的接近正常曲线的结果。

这方面的问题后续会详细介绍。

有些可悲的是,在诸如报账、客服和人力资源等非统计部门的人们,已经开始大量使用诸如平均值和标准差等统计量了,

毫无疑问,存在着极多的滥用。

他们还使用统计假设检验来比较数据集,如t检验、方差分析和卡方检验。

这是一场巨大的变革,在某种程度上,最近的“大数据”时代已经把这些重要的(对外行人来说可能有点棘手)前提性假设检验抛在了后面。

回到球员的身高

由于球员身高分布非常接近正态分布,意味着离平均值越远,在集合中找到某个特定值的可能性就会迅速降低。

数据集中最高的球员是内特·沃兹尼亚克(Nate Wozniak),他在花名册上的身高为82英寸6英尺10英寸),比平均值高2.6个标准差,

如下图所示:

84af8e637f0ca4df3f55925e228cbb4b.png

上图的2.6的值被称为Z分数,可以用正态分布的Z分数表来查对应的分布概率。

在一组平均身高73.7英寸,标准差为3.2英寸的人群中,有至少82英寸身高的队员,其概率略小于0.5%,准确地说是0.47%。

单以此看,215名选手中大约有1人的身高会和沃兹尼亚克一样高,甚至更高。

正态曲线有一个显著特性,从来没有完全降到0,也就是说任何点不管离中心多远,其概率不为零。

只不过,是离得越远,概率越小。

一个足球运动员如果比一般人高6个百分点就几乎是不可能的了身高,找到身高至少达到这个高度的球员的几率不到十亿分之一。

结语

至此,我们看到,正态分布的使用还算顺利。下一篇,将会进入第三张图---关于球员年龄的对数正态分布

分享到 :
0 人收藏
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:3875789
帖子:775174
精华:0
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP