数据预处理的方法

文 | Smartbi大数据百科 2021-06-02 阅读次数:12041 次浏览

商业智能BI产品更多介绍:https://www.smartbi.com.cn/

商业智能BI产品更多介绍:点击前往

    数据预处理的方法(一)聚集

    聚集(aggregation)将两个或多个对象合并成单个对象。

    数据预处理的方法(二)抽样

    抽样是一种选择数据对象子集进行分析的常用方法。

    数据预处理的方法(三)维归约

    数据集可能包含大量特征。考虑一个文档的集合,其中每个文档是一个向量,其分量是文档中每个词出现的频率。在这种情况下,通常有成千上万的属性(分量),每个代表词汇表中的一个词。

    数据预处理的方法(四)特征子集选择

    是指从已有的M个特征(Feature)中选择N个特征使得系统的特定指标最优化,是从原始特征中选择出一些最有效特征以降低数据集维度的过程,是提高学习算法性能的一个重要手段,也是模式识别中关键的数据预处理步骤。

    数据预处理的方法(五)变量变换

    指各类变量(或因素、指标)的互相转化。

    数据预处理的方法(六)数据清理

    数据清理例程通过填写缺失的值、光滑噪声数据、识别或删除离群点并解决不一致性来“清理”数据。主要是达到如下目标:格式标准化,异常数据清除,错误纠正,重复数据的清除。

    数据预处理的方法(七)数据集成

    数据集成例程将多个数据源中的数据结合起来并统一存储,建立数据仓库的过程实际上就是数据集成。

    数据预处理的方法(八)数据变换

    通过平滑聚集,数据概化,规范化等方式将数据转换成适用于数据挖掘的形式。

    数据预处理的方法(九)数据归约

    数据挖掘时往往数据量非常大,在少量数据上进行挖掘分析需要很长的时间,数据归约技术可以用来得到数据集的归约表示,它小得多,但仍然接近于保持原数据的完整性,并结果与归约前结果相同或几乎相同。

申请试用 了解更多

2024年度精选《思迈特制造行业BI最佳实践合集》

立即下载
Copyright© 广州思迈特软件有限公司  粤ICP备11104361号

电话咨询

售前咨询
400-878-3819 转1

售后咨询
400-878-3819 转2
服务时间:工作日9:00-18:00

微信咨询

添加企业微信 1V1专属服务