定量分析时常用的数据清洗方法有哪些?

文 | Smartbi大数据百科 2021-05-26 阅读次数:4366 次浏览

商业智能BI产品更多介绍:https://www.smartbi.com.cn/

商业智能BI产品更多介绍:点击前往

    数据缺失值清洗

    1、确定缺失值范围

    对每个字段计算其缺失值比例,然后按照缺失比例和字段重要性,分别制定策略。

    2、去除不需要的字段

    删除重复字段等不需要的字段。

    3、填充缺失内容

    包括以业务知识或经验推测填充缺失值;以同一指标的计算结果(均值、中位数、众数等)填充缺失值;以不同指标计算结果填充缺失值。

    4、重新取数

    如指标数据非常重要且缺失率高,就需要和取数人员或业务人员了解,是否有其他渠道可以取到相关数据。

    格式内容清洗

    1、统一数据格式

    时间、日期、数值、全半角等显示格式不一致或需要整合多种来源数据时,往往存在数据格式不一致的情况,将其处理成一致的格式利于后期统一数据分析。

    2、清洗内容中有不合逻辑的字符

    最典型的就是头、尾、中间的空格,也可能出现姓名中存在数字符号、身份证号中出现汉字等问题。这种情况下,需要以半自动校验半人工方式来找出可能存在的问题,并去除不需要的字符。

    3、内容与该字段应有内容不符

    姓名写了性别,身份证号写了手机号等等,均属这种问题。但该问题特殊性在于:并不能简单的以删除来处理,因为成因有可能是人工填写错误,也有可能是前端没有校验,还有可能是导入数据时部分或全部存在列没有对齐的问题,因此要详细识别异常出现的原因然后根据问题的成因分类处理问题。

    逻辑错误清洗

    逻辑错误清洗是指去掉一些使用简单逻辑推理就可以直接发现问题的数据,防止分析结果走偏。主要包含:去重;去除不合理值;修正矛盾内容。

    非需求数据清洗

    由于主观因素影响,往往无法判断数据的价值,故若非必须,则一般不进行非需求数据清洗。

    关联性验证

    当同一条数据有多个来源时,可进行关联性验证或交叉验证。验证数据准确度及可信度,然后按需要调整或去除数据。

申请试用 了解更多

2024年度精选《思迈特制造行业BI最佳实践合集》

立即下载
Copyright© 广州思迈特软件有限公司  粤ICP备11104361号

电话咨询

售前咨询
400-878-3819 转1

售后咨询
400-878-3819 转2
服务时间:工作日9:00-18:00

微信咨询

添加企业微信 1V1专属服务