数据挖掘中常用的数据清洗方法有哪些?

论坛 期权论坛 期权     
完仑均   2018-9-28 00:21   11926   9
数据挖掘
分享到 :
0 人收藏

9 个回复

倒序浏览
2#
RC CAI  3级会员 | 2018-9-28 00:21:41 发帖IP地址来自
数据格式校验,例如加0,位数,合并等,编码等。
真实性校验,剔除明显错误,例如岁数超200等,重复数据剔除,无效数据剔除。
如果要再进一步就得设计校验规则,慢慢筛选。
这些可以机器做。
还有更加吊炸天的是对凭证和原始数据。一般是公司的订单,发货/收货单,发票等。
得手工核对。
3#
匿名用户   | 2018-9-28 00:21:42 发帖IP地址来自
提示: 作者被禁止或删除 内容自动屏蔽
4#
匿名用户   | 2018-9-28 00:21:43 发帖IP地址来自
提示: 作者被禁止或删除 内容自动屏蔽
5#
李水  2级吧友 | 2018-9-28 00:21:44 发帖IP地址来自
数据清洗的基本模型是:

原始数据――>(变换模型)――>可用数据

对变换模型的要求为:
1. 必须是一一映射;
2. 清洗效率要求;
3. 变换模型集合规模适中。

数据清洗的基本类型:
1. 数值变换,包括平移、伸缩、降维,也可先降后升;
2. 类型变换,非数值转换为数值型;
3. 无效数据删除。没有绝对无效的数据,是否删除取决于        应用范围,最佳方案是弃用将其放入“垃圾桶”内
6#
光色浪漫灯光顾问  3级会员 | 2018-9-28 00:21:46 发帖IP地址来自
在办公室见了一个印度小伙子 做的 CRM CLEANING, 还以为是防止爬虫的,,,,,不禁起了好奇心, 谢谢啦
7#
cece ma  1级新秀 | 2018-9-28 00:21:47 发帖IP地址来自
根据数据量方法不一样
太大就要先写过滤器,把一些特征明显的数据过滤掉
再到人工处理的阶段
8#
zjreed  2级吧友 | 2018-9-28 00:21:48 发帖IP地址来自
实际做项目时会发现数据的格式并不是都那么规整的,比如最常见的缺失值的问题,变量冗余,量纲等等。
9#
天天向上  4级常客 | 2018-9-28 00:21:49 发帖IP地址来自
说一下其他的途径和方法,企业如果人员紧张,专业度不够,可以考虑把数据清洗的工作交给专业的外包机构来做,然后根据这些清洗后的数据再根据自己的业务进行开发和ying销,相比下效率是很高的,成本还低。我们是专业的外包数据清洗服务商,有需求可详细沟通
10#
赵子玮  2级吧友 | 2018-9-28 00:21:50 发帖IP地址来自
请问有什么好的专门介绍数据预处理方法书籍吗?
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:
帖子:
精华:
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP