挖矿笔记(二)

论坛 期权论坛 期权     
医本正经儿   2020-3-28 04:26   1609   0
毋某人的挖矿笔记(二)

       今天天气不错,毋小白尝试利用矩阵来探究两个分类变量之间是否存在明显的关系。使用的算法之前有提到过,卡方检验。
       放在中医的数据挖掘中,可以检验某症状的出现与某药之间是否存在明显的联系。那么,下面开始吧。

       这个表格还是(一)中的那个表格。

       这张表格是随便做出来的(真实的临床症状其实和上面那张图中的用药不匹配,就为了学习一下如何操作瞎编的。)
       下面首先做的是将这两个表合并在一起。也就是数据的变量集成(横向合并)。记得用过滤器过滤掉不用的字段。

       双击点开“合并”。

       顺序合并指的是不同的表格按照顺序一一合并。因此,在合并之前一定要保证两个表格中的数据从上到下都是一致的。使用关键字来进行合并就比较稳妥了。关键字在这里使用的是“患者编号”。将编号一致的数据合并在一起。(条件和排名条件要写代码公式,不会。)在点了关键字后,选择下面的内部链接。

       输入部分,可以调整表格数据输入的先后顺序。还可以改标记的名称。

然后点那个右下角“应用”,左下角的“确定”,这个框框就关掉了。现在工作区构图如下:

       双击“表格”直接点运行。用药和症状的情况就合并出来了。

       下面需要探究某味药与某症状之间的联系。
       因为工作区的那个表格是终端,终端不能继续进行任务,于是就把它删除。然后把图做成下面这样后,双击“矩阵”打开。

       “行”选择干咳,“列”选择僵蚕。实际上是在构建卡方检验的四格表了。

       “选定”部分可以指定行和列,选用“所有标志”的话,就会对表格中的所有标志变量进行两两配对。(看起来是非常有趣了,可以尝试!)而“所有数值”这个先不管了。
       包含缺失值指的是如果选择此框框,当数据中含有缺失值时,则缺失值会被作为一个单独的变量水平出现在矩阵中。如果没有选择此复选框,则会把对应的缺失值排除。
       外观设置如下图所示:

       叠字段用于显示矩阵中的极值。根据个人意愿选择突出的数量。(最大用红色,最小用绿色。)
       然后开始激动人心的运行时刻。

       得到了下面这个表,横是干咳,列是僵蚕,一个是50%,一个是60%,进行卡方检验后发现P大于0.05了,那么说明“僵蚕的使用和咳嗽之间不存在联系。”
       (其实是有联系的的,出现这样的结果是因为毋某人是乱填的。)
       用同样的方法,测试“射干与咽痛之间的联系”。结果如下图。

       概率是比上一个小了。呃,我们的样本数量太小了,加上毋某人的胡作非为,P还是>0.05,没联系。(实际上还是有联系。)
      下面进入高光时刻,试试那个“所有标志”。结果得到了下面这个表。
       据说表示的是对应的行和列变量的交叉乘积之和。适合计算的是列是数量,行是单价的那种数据类型,跟我们中医的挖掘太不沾边了。well,今天又是学到新东西的一天。
       今日份挖矿结论:其实卡方检验通过spss软件也可以完成,但是数据量过大时,使用spss modoler 更方便快捷,不亏是数据挖掘专业软件。

姹紫嫣红 春风拂面




分享到 :
0 人收藏
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:40
帖子:3
精华:0
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP