挖矿笔记（二）

毋某人的挖矿笔记（二）

   今天天气不错，毋小白尝试利用矩阵来探究两个分类变量之间是否存在明显的关系。使用的算法之前有提到过，卡方检验。
   放在中医的数据挖掘中，可以检验某症状的出现与某药之间是否存在明显的联系。那么，下面开始吧。

   这个表格还是（一）中的那个表格。

   这张表格是随便做出来的（真实的临床症状其实和上面那张图中的用药不匹配，就为了学习一下如何操作瞎编的。）
   下面首先做的是将这两个表合并在一起。也就是数据的变量集成（横向合并）。记得用过滤器过滤掉不用的字段。

   双击点开“合并”。

   顺序合并指的是不同的表格按照顺序一一合并。因此，在合并之前一定要保证两个表格中的数据从上到下都是一致的。使用关键字来进行合并就比较稳妥了。关键字在这里使用的是“患者编号”。将编号一致的数据合并在一起。（条件和排名条件要写代码公式，不会。）在点了关键字后，选择下面的内部链接。

   输入部分，可以调整表格数据输入的先后顺序。还可以改标记的名称。

然后点那个右下角“应用”，左下角的“确定”，这个框框就关掉了。现在工作区构图如下：

   双击“表格”直接点运行。用药和症状的情况就合并出来了。

   下面需要探究某味药与某症状之间的联系。
   因为工作区的那个表格是终端，终端不能继续进行任务，于是就把它删除。然后把图做成下面这样后，双击“矩阵”打开。

   “行”选择干咳，“列”选择僵蚕。实际上是在构建卡方检验的四格表了。

   “选定”部分可以指定行和列，选用“所有标志”的话，就会对表格中的所有标志变量进行两两配对。（看起来是非常有趣了，可以尝试！）而“所有数值”这个先不管了。
   包含缺失值指的是如果选择此框框，当数据中含有缺失值时，则缺失值会被作为一个单独的变量水平出现在矩阵中。如果没有选择此复选框，则会把对应的缺失值排除。
   外观设置如下图所示：

   叠字段用于显示矩阵中的极值。根据个人意愿选择突出的数量。（最大用红色，最小用绿色。）
   然后开始激动人心的运行时刻。

   得到了下面这个表，横是干咳，列是僵蚕，一个是50%，一个是60%，进行卡方检验后发现P大于0.05了，那么说明“僵蚕的使用和咳嗽之间不存在联系。”
   （其实是有联系的的，出现这样的结果是因为毋某人是乱填的。）
   用同样的方法，测试“射干与咽痛之间的联系”。结果如下图。

   概率是比上一个小了。呃，我们的样本数量太小了，加上毋某人的胡作非为，P还是＞0.05，没联系。（实际上还是有联系。）
   下面进入高光时刻，试试那个“所有标志”。结果得到了下面这个表。
   据说表示的是对应的行和列变量的交叉乘积之和。适合计算的是列是数量，行是单价的那种数据类型，跟我们中医的挖掘太不沾边了。well，今天又是学到新东西的一天。
   今日份挖矿结论：其实卡方检验通过spss软件也可以完成，但是数据量过大时，使用spss modoler 更方便快捷，不亏是数据挖掘专业软件。

姹紫嫣红春风拂面

挖矿笔记（二）

浏览过的版块