数据清洗的定义、重要性及常见问题

文 | Smartbi大数据百科 2021-06-08 阅读次数:12394 次浏览

商业智能BI产品更多介绍:https://www.smartbi.com.cn/

商业智能BI产品更多介绍:点击前往

    数据清洗的定义

    数据清洗是将数据库精简以除去重复记录,并使剩余部分转换成符合标准的过程;狭义上的数据清洗特指在构建数据仓库和实现数据挖掘前对数据源进行处理,使数据实现准确性、完整性、一致性、适时性、有效性,以适应后续操作的过程。从提高数据质量的角度来说,凡是有助于提高数据质量的数据处理过程,都可以认为是数据清洗。数据清洗是对数据进行处理以保证数据具有较好质量的过程,即得到干净数据的过程。

    数据清洗的重要性

    对于数据缺失值的处理:可以选择直接删除,简单暴力,也可以选择自己补全值,那么在什么时候选择什么方法就是我们需要考虑的问题。如果要删除的维度数据对于整体影响不大的话,那么是可以进行删除的,但是如果这个要删除的维度数据很重要的话我们就不能选择直接删除了。

    (1)直接删除:简单粗暴的方法,但是只适用于那种删除后不太影响整体数据的数据。

    (2)采用平均值填补:计算当前这一列的数据的平均值,比如说某个人的数学成绩缺失,就可以用所有人的数学成绩,去取平均值。

    (3)用“Unknown”去填补缺失的值,但是不建议去使用,因为在用算法进行分析的时候,这个字段会成为一个新维度,会影响数据分析结果。

    (4)对于数据异常的处理可以直接删除异常值也可以选择利用盖帽法去处理。用其他正常的值去代替异常值。

    (5)对于重复数据的处理:解决方法很简单,直接去掉重复值

    数据清洗常见问题

    (1)空数据:对于一条空数据直接选择删除。

    (2)数据不完整:我们在做数据清洗时,时常会遇到“缺胳膊少腿”的数据,那么这些数据可以被划分为无效数据,可以选择删除,但是呢也可以选择补全数据,补全数据有两个选择:第一个选择,取这个缺失字段的整列平均值;第二个选择,取当前缺失字段的整列频率最高值,但是重要数据列字段我们无法填补,比如性别字段。

    (3)数据单位不统一:统一单位,比如说薪资的单位就是元。

    (4)数据重复:保留时间戳最新的那一条数据,剩下重复的数据删除。

    (5)错误数据:错误数据无法处理,选择删除。像刚才提到的性别错误,我们无法判断。也无法用平均值和频率补全。

申请试用 了解更多

2024年度精选《思迈特制造行业BI最佳实践合集》

立即下载
Copyright© 广州思迈特软件有限公司  粤ICP备11104361号

电话咨询

售前咨询
400-878-3819 转1

售后咨询
400-878-3819 转2
服务时间:工作日9:00-18:00

微信咨询

添加企业微信 1V1专属服务