一文讲清楚数据挖掘

文 | Smartbi大数据百科 2024-03-20 阅读次数:630 次浏览

商业智能BI产品更多介绍:https://www.smartbi.com.cn/

商业智能BI产品更多介绍:点击前往

    什么是数据挖掘?

    随着计算机技术的革新和网络媒体的快速发展,我们的生活和企业的发展进入了高速信息化数据话时代。人们的生活再也离不开各种数据,比如日常各种信息广告的精准投放,背后无一不是技术的发展和数据分析挖掘的应用。


    对于个人和企业来说,我们日常了解和接触比较多的是数据分析之类的信息和技术,确不知道数据挖掘也已走入我们的生活和工作。


    2009年,Google利用大数据分析挖掘人们搜索的历史记录相关数据,预测了H1N1流感爆发地。

    2014年,百度利用大数据分析团队表现情况,博彩公司赔率等,成功预测2014年世界杯,从淘汰赛和决赛都预测正确。

    ......

    而对于企业来说,通过数据挖掘不仅能预测未来发展情况,还能挖掘异常问题出现的原因,以便解决和优化。

    数据挖掘是从海量数据中,通过机器学习、人工智能等技术构建数据模型,对数据进行分析、归纳、推理,找到规律,从而在其中挖掘出潜在的价值,帮助管理者调整市场策略。



    数据挖掘和数据分析的区别

    数据挖掘和数据分析都是从数据中获取信息的方法,都是使用工具和技术来达到目标,它们可以共同用于发现模式、提取知识,并支持决策制定。两者在定义、使用的技术方法和目标上都不一样,具体的可以看看下面表格:

    image.png

    数据挖掘的相关技术

    数据挖掘涉及很多技术,如统计学、数据库技术、机器学习技术等等,下面我们重点介绍一下机器学习技术。

    image.png 

    机器学习是人工智能的一个分支,它关注如何使计算机系统从经验中学习,并通过学习改进其性能。机器学习使用算法来分析和解释数据,并通过学习从数据中提取知识,挖掘出其中隐含的规律,并用于预测或者分类。

    image.png 

    机器学习是一系列算法的总称。这些算法企图从大量历史数据中它可以看作是寻找一个函数,输入是样本数据,输出是期望的结果。

    比如,目前AI看病很多情况都是输入病人的症状参数,然后AI从大量历史病症信息中找到类似规律,然后给与病人分类,并根据输入的参数来给出诊断结果和治疗方案。

    这些算法又分为有监督学习和无监督学习。

    监督学习是从从有标记的训练数据中推导出预测函数。有标记的训练数据是指每个训练实例都包括输入和期望的输出。

    一句话:给定数据,预测标签

    举例:学认字 根据生字表学习每一个字,然后对 一篇新文章读出里边的字

    image.png 

    无监督学习是从无标记的训练数据 中推断结论。

    一句话:给定数据,寻找隐藏的结构

    举例:自动聚类 对人群按照某种相似性进行归类,每类中可能是相同的肤色、发色等

    image.png 


    数据挖掘建模流程

    数据挖掘建模主要有如下流程步骤:

    image.png 

    (1) 定义挖掘目标。确定目标需要问三个问题。一是需求背景是什么?二是客户的痛点是什么?三是映射到挖掘上是需要什么功能?

    (2) 数据获取。目标定好后,我们需要从各个口把数据获取到。

    image.png 

    (3) 数据探索。数据探索是对建模分析数据进行先导性的洞察分析,利用绘制图表、计算某些特征量等手段,对样本数据集的结构特征和分布特性进行分析的过程。该步骤有助于选择合适的数据预处理和数据分析技术,它是数据建模的依据,比如:数据探索发现数据稀疏,建模时则选择对稀疏数据支持相对较好的分析方案。

    (4) 数据预处理。数据预处理是将不规整的业务数据整理为相对规整的建模数据,数据的质量决定了模型输出的结果,通常我们要对数据进行清洗、转换、集成、规约,以便形成挖掘需要的高质量数据。

    (5) 挖掘建模。数据准备好后,根据数据特征,我们选择分类/回归/聚类/关联规则/文本分析等相关算法进行挖掘模型创建。

    (6) 模型评估。模型评估是评估所构建的模型是否符合既定的业务目标,它有助于发现表达数据的最佳模型和所选模式将来工作的性能如何。


    好的数据挖掘工具

    数据挖掘因为其技术门槛,我们应该选择一款专业的工具来帮助我们实现。Smartbi提供专业的数据挖掘工具Smartbi Mining,它通过深度数据建模,为企业提供预测能力。


    专业的算法能力

    内置50+挖掘组件,包含了分类、回归、聚类、预测、关联等机器学习的成熟算法支持文本分析处理,支持使用Python扩展挖掘算法, 支持使用SQL扩展数据处理能力

    image.png


    可视化流式建模

    为用户提供可视化建模界面,预置大量数据处理及算法节点,通过拖拽的方式实现流式建模,方便用户快速构建数据挖掘模型。

    image.png


    AutoML

    将数据来源、特征、模型、优化、评价有关的重要步骤进行自动化地学习创建,使得机器学习模型通过向导式的方式即可被轻松创建应用

    https://smartbiviedo.oss-cn-beijing.aliyuncs.com/smartbi/sjwj.mp4


    模型自学习

    模型自学习根据定期更新的数据实现对模型自动化训练,并能自动将符合一定要求的模型发布或者部署到生产中,从而解决模型长期得不到更新准确性降低的问题,并极大减轻运维人员的工作量。


    模型对比

    z比分析,并支持导出包括模型参数、特征变量、特征重要性、评估指标等内容的评估报告


申请试用 了解更多

2024年度精选《思迈特制造行业BI最佳实践合集》

立即下载
Copyright© 广州思迈特软件有限公司  粤ICP备11104361号

电话咨询

售前咨询
400-878-3819 转1

售后咨询
400-878-3819 转2
服务时间:工作日9:00-18:00

微信咨询

添加企业微信 1V1专属服务