数据清理经常会使用到的4种方法

文 | Smartbi大数据百科 2021-09-29 阅读次数:11528 次浏览

商业智能BI产品更多介绍:https://www.smartbi.com.cn/

商业智能BI产品更多介绍:点击前往

    1、处理不完整数据(即缺失值)的方法

    大部分时候,丢失的值必须用手工来填充(也就是人工清理)。


    自然,在本数据来源或其他数据源中,某些缺失的值可由均值、最大值、最小值,或更复杂的概率估计来替代缺失值,以实现清理。


    2、误数值的检测和解算

    采用统计方法,找出可能出现的误差或异常值,如偏差分析、不符合分布或回归方程的值,或使用简单的规则库(常识规则、业务具体规则等)检查数据值,或使用不同属性之间的约束、外部数据用于检测和清除数据。


    3、检查和消除重复记录的方法

    一条记录中,属性值相同的记录被看作是重复记录,将相等的记录合并为一条记录(即合并/清除),这是通过判断各记录之间的属性值是否相等。


    合并/清除是基本的消重方法。


    4、不一致性(数据源内和不同来源之间)检测和解决办法

    对大多数数据源进行集成的数据可以存在语义冲突,使用完整性约束来检测不一致性,或者通过分析数据来发现关联,从而使数据保持一致性。


申请试用 了解更多

2024年度精选《思迈特制造行业BI最佳实践合集》

立即下载
Copyright© 广州思迈特软件有限公司  粤ICP备11104361号

电话咨询

售前咨询
400-878-3819 转1

售后咨询
400-878-3819 转2
服务时间:工作日9:00-18:00

微信咨询

添加企业微信 1V1专属服务