大数据分析处理及挖掘技术

文 | Smartbi大数据百科 2021-10-28 阅读次数:4290 次浏览

商业智能BI产品更多介绍:https://www.smartbi.com.cn/

商业智能BI产品更多介绍:点击前往

    一、大数据采集技术

    数据是指通过RFID射频数据、传感器数据、社交网络交互数据和移动互联网数据获得的各种类型的结构化。半结构化(或弱结构化)和非结构化海量数据是大数据知识服务模型的基础。重点突破分布式高速可靠数据爬行或采集、高速数据全图像等大数据采集技术;突破高速数据分析、转换和装载等大数据集成技术;设计质量评价模型,开发数据质量技术。

     

    大数据采集一般分为:

    1、大数据智能感知层:主要包括数据传感系统、网络通信系统、传感适应系统、智能识别系统和软硬件资源访问系统,实现结构化、半结构化、非结构化海量数据的智能识别、定位、跟踪、访问、传输、信号转换、监控、初步处理和管理。重点攻克大数据源的智能识别、感知、适应、传输、接入等技术。

     

    2、基础支持层:提供大数据服务平台所需的虚拟服务器、结构化、半结构化、非结构化数据数据库、物联网资源等基础支持环境。重点攻克分布式虚拟存储技术、大数据采集、存储、组织、分析决策操作的可视化接口技术、大数据网络传输压缩技术、大数据隐私保护技术等。


    二、大数据预处理技术

    完成已接收数据的识别、提取、清洗等操作。

    1、提取:由于获得的数据可能有多种结构和类型,数据提取过程可以帮助我们将这些复杂的数据转换为单一或易于处理的结构,以实现快速分析和处理的目的。

     

    2、清洁:对于大数据来说,并不全是有价值的。有些数据不是我们关心的,有些数据是完全错误的干扰项。因此,有效数据应该通过过过滤除噪来提取。


    三、大数据存储与管理技术

    大数据存储和管理应使用存储器存储收集到的数据,建立相应的数据库,并进行管理和调用。重点解决复杂的结构化、半结构化和非结构化的大数据管理和处理技术。主要解决大数据的可存储、可表示、可处理、可靠性和有效传输等关键问题。开发可靠的分布式文件系统(DFS)。能效优化存储、计算集成存储、大数据去冗余、高效低成本的大数据存储技术;突破分布式非关系大数据管理处理技术、异构数据数据集成技术、数据组织技术、研究大数据建模技术;突破大数据索引技术;突破大数据移动、备份、复制等技术;开发大数据可视化技术。

     

    开发新的数据库技术,数据库分为关系数据库、非关系数据库和数据库缓存系统。其中,非关系数据库主要指NosQL数据库,分为键值数据库、列存数据库、图存数据库和文档数据库。关系数据库包括传统的关系数据库系统和NewSQL数据库。

     

    开发大数据安全技术:改进数据销毁、透明加解密、分布式访问控制、数据审计等技术;突破隐私保护和推理控制、数据真实性识别和证据收集、数据持有完整性验证等技术。


    四、大数据分析及挖掘技术

    大数据分析技术:完善现有数据挖掘和机器学习技术;开发数据网络挖掘、特殊群挖掘、图挖掘等新型数据挖掘技术;突破基于对象的数据连接、相似性连接等大数据集成技术;突破用户兴趣分析、网络行为分析、情感语义分析等领域的大数据挖掘技术。

     

    数据挖掘是从大量的、不完整的、噪音的、模糊的、随机的实际应用数据中提取隐含的。人们事先不知道的。但这是一个潜在而有用的信息和知识过程。

     

    数据挖掘涉及的技术方法很多,分类方法也很多。根据挖掘任务,可分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等。根据挖掘对象,可分为关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、遗产数据库和全球网络Web;根据挖掘方法,可分为机器学习方法、统计方法、神经网络方法和数据库方法。

     

    在机器学习中,可细分为归纳学习方法(决策树、规则归纳)等。基于例子学习、遗传算法等。统计方法可细分为回归分析(多回归、自回归)等。判断分析(贝叶斯判断、费歇尔判断、非参数判断)等。聚类分析(系统聚类、动态聚类)等。探索性分析(主要分析、相关分析)等。神经网络方法可细分为:前向神经网络(BP算法)等。自组织神经网络(自组织特征映射、竞争学习)等。数据库方法主要是多维数据分析或OLAP方法,以及面向属性的归纳方法。

     

    数据挖掘的主要过程是从数据库中提取数据,然后通过ETL组织成适合分析挖掘算法的宽表,然后使用数据挖掘软件进行挖掘。传统的数据挖掘软件一般只支持单机小规模数据处理。由于这种限制,传统的数据分析挖掘通常采用抽样方法来减少数据分析的规模。

     

    数据挖掘的计算复杂性和灵活性远远超过前两类要求。首先,由于数据挖掘问题的开放性,数据挖掘将涉及大量衍生变量计算,导致数据预处理计算的复杂性;其次,许多数据挖掘算法本身更复杂,计算量非常大,特别是大量的机器学习算法,是迭代计算,需要通过多次迭代,如K-means聚类算法、Pagerank算法等。


    五、数据挖掘技术可分为哪些方面?

    1、可视化分析

    数据可视化是普通用户或数据分析专家最基本的功能。数据图像化可以让数据自己说话,让用户直观地感受到结果。

     

    2、数据挖掘算法

    图像化是机器语言的翻译,数据挖掘是机器的母语。分割、集群、孤立点分析和各种算法让我们精炼数据,挖掘价值。这些算法必须能够处理大数据的数量和高处理速度。

     

    3、预测性分析

    预测分析可以让分析师根据图像分析和数据挖掘的结果做出一些前瞻性的判断。比如Smartbi可以通过数据可视化的数据变化,智能预测未来一段时间的数据结果。

     

    4、语义引擎。语义引擎需要设计足够的人工智能来主动从数据中提取信息。语言处理技术包括机器翻译、情感分析、舆论分析、智能输入、问答系统等。

     

    5、数据质量和数据管理。

    管理的最佳实践是数据质量和管理。预设质量的分析结果可以通过标准化流程和机器处理数据来保证。

     


申请试用 了解更多

2024年度精选《思迈特制造行业BI最佳实践合集》

立即下载
Copyright© 广州思迈特软件有限公司  粤ICP备11104361号

电话咨询

售前咨询
400-878-3819 转1

售后咨询
400-878-3819 转2
服务时间:工作日9:00-18:00

微信咨询

添加企业微信 1V1专属服务