数据挖掘与数据仓库的一些基本概念

文 | Smartbi大数据百科 2021-04-23 阅读次数:2708 次浏览

商业智能BI产品更多介绍:https://www.smartbi.com.cn/

商业智能BI产品更多介绍:点击前往

     OLAP:联机分析处理

    OLAP是E.F.Codd于1993年提出的。
    OLAP是一种软件技术,他使分析人员可以迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的,这些信息是从原始数据直接转换过来的,他们以用户easy理解的方式反映企业的真实情况。
    OLAP大部分策略都是将关系型的或普通的数据进行多维数据存贮,以便于进行分析,从而达到联机分析处理的目的。这样的多维DB也被看作一个超立方体,沿着各个维方向存贮数据,它同意用户沿事物的轴线方便地分析数据,与主流业务型用户相关的分析形式一般有切片和切块以及下钻、挖掘等操作。


     DataMart:数据集市

    为了特定的应用目的或应用范围,而从数据仓库中独立出来的一部分数据,也可称为部门数据或主题数据。在数据仓库的实施过程中往往能够从一个部门的数据集市着手,以后再用几个数据集市组成一个完整的数据仓库。须要注意的就是再实施不同的数据集市时,同一含义的字段定义一定要相容,这样再以后实施数据仓库时才不会造成大麻烦。


     Data Mining:数据挖掘 

    数据挖掘类似的有一个术语叫做”机器学习“,这两个术语在本质上的区别不大,如果在书店分别购买两本讲数据挖掘和机器学习的书籍,书中大部分内容都是互相重复的。具体来说,小的区别如下:

     

    机器学习:更侧重于技术方面和各种算法,一般提到机器学习就会想到语音识别,图像视频识别,机器翻译,无人驾驶等等各种其他的模式识别,甚至于谷歌大脑等AI,这些东西的一个共同点就是极其复杂的算法,所以说机器学习的核心就是各种精妙的算法。

     

    数据挖掘:更偏向于“数据”而非算法,而且包括了很多数据的前期处理,用爬虫爬取数据,然后做数据的清洗,数据的整合,数据有效性检测,数据可视化(画图)等等,最后才是用一些统计的或者机器学习的算法来抽取某些有用的“知识”。前期数据处理的工作比较多。


     ETL

    ETL各自是“Extract”、“ Transform” 、“Load”三个单词的首字母缩写也就是“抽取”、“转换”、“装载”,但我们日常往往简称其为数据抽取。ETL是BI/DW(商务智能/数据仓库)的核心和灵魂,依照统一的规则集成并提高数据的价值,是负责完毕数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤。


     MetaData:元数据

    元数据是描写叙述数据仓库内数据的结构和建立方法的数据。可将其按用途的不同分为两类,技术元数据和商业元数据。技术元数据是数据仓库的设计和管理人员用于开发和日常管理数据仓库是用的数据。包含:数据源信息;数据转换的描写叙述;数据仓库内对象和数据结构的定义;数据清理和数据更新时用的规则;源数据到目的数据的映射;用户訪问权限,数据备份历史记录,数据导入历史记录,信息公布历史记录等。

     商业元数据从商业业务的角度描写叙述了数据仓库中的数据。包括:业务主题的描写叙述,包括的数据、查询、报表;

     元数据为访问数据仓库提供了一个信息文件夹(informationdirectory),这个文件夹全面描写叙述了数据仓库中都有什么数据、这些数据怎么得到的、和怎么訪问这些数据。是数据仓库执行和维护的中心,数据仓库server利用他来存贮和更新数据,用户通过他来了解和訪问数据。


申请试用 了解更多

2024年度精选《思迈特制造行业BI最佳实践合集》

立即下载
Copyright© 广州思迈特软件有限公司  粤ICP备11104361号

电话咨询

售前咨询
400-878-3819 转1

售后咨询
400-878-3819 转2
服务时间:工作日9:00-18:00

微信咨询

添加企业微信 1V1专属服务