数据挖掘五个过程

文 | Smartbi大数据百科 2021-08-31 阅读次数:3507 次浏览

商业智能BI产品更多介绍:https://www.smartbi.com.cn/

商业智能BI产品更多介绍:点击前往

    数据挖掘的目的

    在实行方法之前,得先确定清楚通过本次数据挖掘想要知道什么样的具体结论。


    例如,你想了解你的消费者的需求转移路径、或者产品之间的关联性等。具体的目标决定需采用怎样的数据池以及数据模型。

    S - SAMPLE - 数据取样

    E - EXPLORE - 数据的特征探索,分析和处理

    M - MODIFY - 问题明确化,数据调整和技术选择

    M - MODEL - 模型的研发、知识的发现

    A - ASSESS - 模型和知识的综合解释和评价


    1、数据取样(S-SAMPLE)

    数据取样是最终挖掘结果的基石。面对企业的巨量数据,我们不可能动用其全部的数据——这样的效率低下,且极不安全。因此,我们必须根据目标制定需要选取的数据样本,节省系统资源。


    确定好需要选取的数据样本后,必须不时抽查数据的质量。数据质量的标准有几点用以判断:数据的完整性、规范性、一致性、唯一性、准确性。数据是否有缺失字段,是否按照规定存储,是否有度量单位上的冲突,是否和别的数据有属性上的重复,是否是正常而有意义的数据。


    2、数据的特征探索(E-EXPLORE)

    数据探索是对目标命题的初步检验。在我们想了解的事实中,背后隐藏着许多复杂的关系。数据探索的第一步就是先搞清楚哪些因素会相互影响,我们必须先观察众多因素间的相关性,再按其相关程度了解他们相互作用的情况。


    在数据探索的过程中,你的专业技术知识会帮你进行有效的观察,甚至有可能会发现之前从未发现过的关系,这也许是新的知识,不要轻易的给数据探索的结果下定论。


    3、问题明确化、数据调整和技术选择(M-MODIFY)

    在对数据做了特征探索、分析和处理后,你已经掌握了一定的数据状态和趋势,离开答案更进一步了。MODIFY 的步骤就要求我们尽可能将问题量化。问题越明确,则越能进一步量化,就能得到更清楚、有效的答案。


    当问题有进一步明确化的要求好,我们可以按照问题的具体要求重新审视当前的数据集。想要让数据挖掘有效的进行,那么这个过程中所使用的数据和模型都应是易于调整、修改和变动的状态。


    4、模型的研发、知识的发现(M-MODEL)

    这是数据挖掘过程中的核心工作环节,也是最难的一部分。这部分工作涉及了非常广泛的技术领域,包括统计技术、关联规则、遗传算法、决策树、神经网络之类的,尤其是各式各样的数据模型,在这部分的工作中将起到重要的作用。


    5、模型和知识的综合解释和评价(A-ASSESS)

    在完成数据模型之后,你将得到一系列的结果、模式或模型,且必须对这组结果进行验证,以找到最好的模型。同一组数据源可以采用多种数据分析的方法和模型进行分析。一般情况下,数据结果并不能直接的展示问题所在。这时,就要很好的综合每一组结果的影响规律性并为问题提供合理的决策支持信息。


    因此,在数据挖掘的过程中,尽可能的将影响问题结果的数据指标平衡量化。评价的方法是使用原来建立模型的样板数据进行检验。假如这一关就不通过的话,那么这个决策支持信息的价值就值得怀疑了。


申请试用 了解更多

2024年度精选《思迈特制造行业BI最佳实践合集》

立即下载
Copyright© 广州思迈特软件有限公司  粤ICP备11104361号

电话咨询

售前咨询
400-878-3819 转1

售后咨询
400-878-3819 转2
服务时间:工作日9:00-18:00

微信咨询

添加企业微信 1V1专属服务