商业智能BI产品更多介绍:https://www.smartbi.com.cn/
商业智能BI产品更多介绍:点击前往
1、确定缺失值范围
对每个字段计算其缺失值比例,然后按照缺失比例和字段重要性,分别制定策略。
2、去除不需要的字段
删除重复字段等不需要的字段。
3、填充缺失内容
包括以业务知识或经验推测填充缺失值;以同一指标的计算结果(均值、中位数、众数等)填充缺失值;以不同指标计算结果填充缺失值。
4、重新取数
如指标数据非常重要且缺失率高,就需要和取数人员或业务人员了解,是否有其他渠道可以取到相关数据。
1、统一数据格式
时间、日期、数值、全半角等显示格式不一致或需要整合多种来源数据时,往往存在数据格式不一致的情况,将其处理成一致的格式利于后期统一数据分析。
2、清洗内容中有不合逻辑的字符
最典型的就是头、尾、中间的空格,也可能出现姓名中存在数字符号、身份证号中出现汉字等问题。这种情况下,需要以半自动校验半人工方式来找出可能存在的问题,并去除不需要的字符。
3、内容与该字段应有内容不符
姓名写了性别,身份证号写了手机号等等,均属这种问题。但该问题特殊性在于:并不能简单的以删除来处理,因为成因有可能是人工填写错误,也有可能是前端没有校验,还有可能是导入数据时部分或全部存在列没有对齐的问题,因此要详细识别异常出现的原因然后根据问题的成因分类处理问题。
逻辑错误清洗是指去掉一些使用简单逻辑推理就可以直接发现问题的数据,防止分析结果走偏。主要包含:去重;去除不合理值;修正矛盾内容。
由于主观因素影响,往往无法判断数据的价值,故若非必须,则一般不进行非需求数据清洗。
当同一条数据有多个来源时,可进行关联性验证或交叉验证。验证数据准确度及可信度,然后按需要调整或去除数据。
最新上架
麦粉市场集合了海量可视化大屏模板,会员可下载到本地使用物业大数据分析平台
【最新】人力资源(HR)应用 【最热】公司总体薪酬分析银行风险管理
【最新】集团项目管理应用 【最热】银行经营分析电网大数据分析平台
【最新】销售营销应用模板 【最热】房地产经营运营应用电话:
邮箱: