随着计算机技术的革新和网络媒体的快速发展,人们的生活以及企业发展进入了高速信息数字化时代。每天的生活以及生产都要产生大量的数据,例如交通,网络、文字、方位等。但是人们很少能够意识到这些丰富数据中隐藏了有价值的信息。
什么是数据挖掘?
2009年谷歌根据人们搜索的历史记录等大数据成功预测H1N1流感爆发地。
2014年,百度利用球员团队表现情况、博彩公司赔率等大数据,成功地预测2014年世界杯(从淘汰赛到决赛都预测正确)。
从技术的角度来看,数据挖掘是指利用大量不完整并充满随机性的应用在实际的数据,进而从中提取潜在而有价值的信息。从商业的角度来看,它是指从商业数据库中提取、转换、分析等大量业务数据的关键信息,以协助商业决策。
简而言之:大数据挖掘是发现数据中隐含的有价值信息,并受科学信息、数据库技术、统计学、机器学习、可视化等多学科的影响。
数据挖掘的建模过程
1.定义挖掘目标
通过以下步骤确定挖掘目标
(1)需求背景是什么?
(2)什么是客户的痛点
(3)映射到挖掘上,是要实现什么功能?
例如在银行客户流失案例中:
背景:客户是发展银行业务重点,客户流失问题就成为整个行业迫切需要解决的问题。
痛点:传统的方式是靠人工经验判断客户是否会流失,存在主观性的滞后性,解决问题的关键是提高客户流失的预见性。
挖掘功能:通过历史客户数据,建立预测模型,对超过一定阈值的客户发出预警信息,并提前采取保留措施。
2.数据获取
数据探索是指通过绘制图表和计算某些特征来分析样本数据集的结构特征和分布特征的过程。该步骤有助于选择合适的数据预处理和数据分析技术,它是数据建模的依据,比如:数据探索发现数据稀疏,建模时则选择对稀疏数据支持相对较好的分析方案。
数据质量分析:对原始数据进行检查,看其中是否又脏数据。例如缺失值、异常值、不一致的值、重复数据、含有特殊符号的数据等。
数据特征分析:展示数据分布情况、数据对比分析、统计分析、正态性检验、相关性分析。
4.数据预处理
数据预处理是将不规整的业务数据整理为相对规整的建模数据,数据的质量决定了模型输出的结果。
数据清洗:去除噪声和无关数据。
数据转换:将原始数据转换成合适数据挖掘的形式。
数据集成:结合多个数据源中的数据,存储在一致的数据存储中。
数据规约:维归约、数据压缩、数据离散化、数据规范化等等。
覆盖传统BI、自助BI、现代BI不同发展阶段,满足企业数字化转型的多样化需求
电话:
邮箱: