挖矿笔记(三)

论坛 期权论坛 期权     
医本正经儿   2020-3-28 04:34   1758   0
毋某人的挖矿笔记(三)

       今天毋小白来探索一下spss modoler中的“数据审核点”在我们中医狗的应用。描述变量在经过“数据审核点”处理后,可以一次性生成数据审核报告,不需要逐个计算和分析每个变量的汇总统计量及相关分布图形。
       As we know,描述统计分析虽然并不复杂,却都是实际分析中不可少的步骤。比如在之前略有提到的正态性检验,提到正态性检验就会自然联系到t检验。
       顺便复习一下t检验的应用条件:①随机样本。②来自正态分布总体(小样本)。我们用的最多的。对样本量N的要求为小于50。③两独立样本比较时,要求两总体方差相等(方差齐性)。
       在我们拿到一堆数据时,首先要看这个数据到底是呈现什么样的分布。要了解中位数,方差、标准差、众数、离差、平均差等。其中“偏度”和“峰度”是为了研究数据与正态分布的偏离程度。
       以正态分布偏度为0为标准,当偏度大于0时,为正偏态,向左边偏,偏度小于0时,为负偏态,向右边偏。偏度的绝对值越大,说明分布的偏移更严重。举例子:函数图像的长尾巴在右边,则为正偏态。
       峰度是一个相对于正态分布的对比量,正态分布的峰度系数为0,均匀分布的峰度系数为-1.2,指数分布的峰度系数为6.当峰度大于0时,图像更陡峭或尾部更厚。当峰度小于0时。图像更平缓或尾部更薄。
       我们利用峰度系数与其标准误差的比值进行正态性检验。如果该比值的绝对值大于2,则可以拒绝服从正态分布的假设。
       那么,毋小白就先去试一下水。根据山楂降血脂这个常识,先伪造一坨数据。


       通过过滤器筛选一下。

       在类型中“读取值”。输入角色设置为“目标”,也可以不设置。

       双击打开“数据审核”节点,要勾住那个“高级统计量”,“运行”它。得到了下面这个图。

       哦豁,左下角的居然出现了个离群点,说明可能数据出现了问题。于是,毋某人发现了这样的悲剧。

       OK,去修改一下数据变成0.007。就可以出现下面这两个图。

       峰度系数与其标准误差的比值的绝对值为0.546小于2,可以接受正态分布了。
       如果是两个独立样本的t检验,两组数据除了要满足正态性,还需要满足两组数据具有方差齐性。
       发现spss modoler上并没有提供这样的功能,(也可能是我瞎掉了,反正没找到)。因为人家的定位是数据挖掘,对数据进行分析,方差齐性的检验还是需要使用spss软件。度娘上关于spss的资源真是数不胜数,值得拥有。spss modoler的真心不好找,要人吐血。
       还有一个问题,不得不思考,当数据数据不符合正态分布时,我们该怎么办?
       ①从上面栗子看出来数据时中间多,两边分布少,有点像正态。所以要增加样本量。
       ②自然界中绝对的“正态性”是不存在的,从正态分布图直观查看数据分布情况,只要接近正态分布就可以用了。
       ③对数据进行对数转化后看看是不是正态。
       ④实在没法子,要使用非参数检验,wilcoxon检验。
       关于方差齐性检验,是按照基于均值、基于中值..等条件下得出相应的显著性水平,即sig值。t通常情况下规定,sig
分享到 :
0 人收藏
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:40
帖子:3
精华:0
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP