Weka中数据挖掘与机器学习系列之基本概念(三)

论坛 期权论坛     
选择匿名的用户   2021-5-31 09:55   589   0
<div class="blogpost-body" id="cnblogs_post_body">
<h1> </h1>
<h1 id="数据挖掘和机器学习"><br class="Apple-interchange-newline">数据挖掘和机器学习</h1>
<p>  数据挖掘和机器学习这两项技术的关系非常密切。机器学习方法构成数据挖掘的核心,<span style="font-size:18px;"><strong><span style="color:#ff0000;">绝大多数数据挖掘技术都来自机器学习领域,数据挖掘又向机器学习提出新的要求和任务。</span></strong></span></p>
<p>  <span style="font-size:18px;"><strong><span style="color:#ff0000;">数据挖掘</span></strong></span>就是在数据中寻找模式的过程。这个寻找过程必须是自动的或半自动的,并且数据总量应该是具有相当大的规模,从中发现的模式必须有意义并能产生一定的效益。通常,数据挖掘需要分析数据库中的数据来解决问题,如客户忠实度分析、市场购物篮分析等。</p>
<p>  <span style="font-size:18px;"><strong><span style="color:#ff0000;">机器学习</span></strong></span>分为两种主要类型。<strong><span style="color:#0000ff;">第一种称为有监督学习</span><span style="color:#0000ff;">,或称为预测学习</span></strong>,其目标是在给定一系列输入输出实例构成的数据集的条件下,学习输入x到输出y的映射关系。这里的数据集被称为训练集,实例的个数称为训练样本数。<span style="color:#0000ff;"><strong>第二种机器学习类型称为无监督学习,或称为描述学习</strong></span>,在给定一系列仅由输入实例构成的数据集的条件下,其目标是发现数据中的有趣模式。无监督学习有时候也称为知识发现,这类问题并没有明确定义,因为我们不知道需要寻找什么样的模式,也没有明显的误差度量可供使用。而对于给定的x,有监督学习可以对所观察的值和预测的值进行比较。</p>
<p> </p>
<p> </p>
<p> </p>
<p> </p>
<p> </p>
<h1 id="数据和数据集">数据和数据集</h1>
<p>  根据应用的不同,数据挖掘对象可以是各种各样的数据,这些数据可以以各种形式存储,如数据库、数据仓库、数据文件、流数据、多媒体、网页,等等。即可集中存储在数据存储库中,也可以分布在世界各地的网络服务器上。</p>
<p>  通常将数据集视为待处理的数据对象的集合。由于历史原因,数据对象有多个别名,如记录、点、行、向量、案例、样本、观测等。数据对象也是对象,因此,可以用刻画对象基本特征属性来进行描述。属性也有多个别名,如变量、特征、字段、维、列,等等。</p>
<p> <strong><span style="color:#ff0000;"> 数据集可以类似于一个二维电子表格或数据库表</span></strong>。在最简单的情形下,每个训练输入Xi也是一个N维的数值向量,表示特定事物的一些特征,如人的身高、体重。这些特征也可以称为属性,有时Xi也可以是复杂结构的对象,如图像、电子邮件、时间序列、语句等。</p>
<p>  <strong><span style="color:#ff0000;">属性可以分为四种类型:标称、序数、区间和比率</span></strong>,其中,标称属性的值仅仅是不同的名称,即,标称值提供区分对象的足够信息,如性别、衣服颜色、天气等;序数属性的值可以提供给确定对象的顺序的足够信息,如成绩等级、职称、学生等;区间属性的值之间的差是有意义的,即存在测量单位,如温度、日历日期等;比率属性的值之间的差和比值都是有意义的,如绝对温度、年龄、长度、成绩分数等。</p>
<p>  标称属性和序数属性统称为分类的或定性的属性,它们的取值为集合,即使使用数值来表示,也不具备的大部分性质,因此,应该像对待符号一样对待;区间属性和比率属性统称为定量的或数值的属性,定量属性采用数值来表示,具备数的大部分性质,可以使用整数值或连续值来表示。</p>
<p>  大部分数据集都以数据库表和数据文件的形式存在,<strong><span style="color:#ff0000;">Weka支持读取数据库表和多种格式的数据文件,其中,使用最多的是一种称为ARFF格式的文件。</span></strong></p>
<p> </p>
<p> </p>
<p> </p>
<p> </p>
<h1 id="arff格式">ARFF格式</h1>
<p>  <strong><span style="color:#0000ff;">ARFF是一种Weka专用的文件格式,即Attribute-Relation File Format(属性-关系文件格式)</span></strong>。该文件是ASCII文本文件,描述共享一组属性结构的实例列表,由独立且无序的实例组成,是Weka表示数据集的标准方法,ARFF不涉及实例之间的关系。</p>
<p>  在<strong>Weka安装目录下的data子目录</strong>中,可以找
分享到 :
0 人收藏
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:3875789
帖子:775174
精华:0
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP