智能BI平台 AI

Smartbi AIChat

一站式ABI平台

Smartbi Insight

智慧数据运营平台

Smartbi Eagle

电子表格软件

Smartbi Spreadsheet

联系我们: 400-878-3819

了解AIChat智能BI平台解决方案 >

数据准备

检索增强生成RAGNEW

自然语言分析

系统管理

了解一站式ABI平台解决方案 >

数据管理

数据分析

了解智慧数据运营平台解决方案 >

了解电子表格软件解决方案 >

行业解决方案

覆盖金融、制造、医疗、政府、零售等主流行业

联系我们: 400-878-3819

教育行业 >

高校数据中心与应用方案

一网通办推广方案

高校质量实时监测大数据平台

研究生教学大数据服务平台

其他行业

智慧园区大数据解决方案

交通运输业大数据解决方案

水泥行业大数据解决方案

智慧水务大数据解决方案

金融

银行AI智能问数方案NEW

证券AI智能问数方案NEW

银行数字化方案

智慧数据运营平台

能源行业

电力大数据解决方案

燃气大数据解决方案

医疗行业 >NEW

运营管理决策平台

公立医院绩效考核指标监控平台

等级评审指标监控平台

医院智慧审计平台

信创生态

信创ABI产品NEW

资源中心

你身边的数智化智库，汇集了各行各业的数智化解决方案、行业实践经验、趋势洞察和行业洞见等。

进入资源中心 >

联系我们: 400-878-3819

精选资料 >

《医疗行业解决方案集锦》

《制造业数字化人力资源管理方案》

《2024中国制造业智能BI解决方案与案例》NEW

《医院分析指标体系建设白皮书》

《制造行业智能BI最佳实践合集》

《中国银行业商业智能平台数据运营实践与案例》

《制造企业数字化经营管理平台建设方案》

《以指标为中心的ABI平台重塑企业数字化经营白皮书》HOT

智能指南

融合最前沿AI技术与BI能力，结合行业Know-How打造全新一代智能BIHOT

如何让AIGC跟企业的战略能够匹配，能够对齐？HOT

企业有了BI，为什么还需要以指标为核心的ABI平台？

指标体系是重塑企业数字化经营能力的关键！

有了AI大模型加持，企业如何更有效地借助BI释放数据价值？

AI + BI数智融合，如何驱动企业数智化转型发展？

管理驾驶舱成摆设？以指标为核心的ABI平台如何激活核心数据？

如何有效运营数据以驱动业务发展与决策？

服务与支持

思迈特软件提供多种自动和人工服务方式，为您的产品使用和项目保驾护航

投诉热线：199-2645-9486

投诉邮箱：complain@smartbi.com.cn

售前热线

400-878-3819转1

邮箱咨询

sales@smartbi.com.cn

IM即时通讯

即时通讯实时沟通

技术工单

5 × 8 小时在线提供服务

售后热线

400-878-3819转2

邮箱支持

support@smartbi.com.cn

新手入门

产品安全

了解思迈特软件

思迈特软件致力于为客户提供基于AI Agent的增强分析平台和解决方案，成为数据领域AIGC领导者，让数据为客户创造价值，助力企业数智化运营。

联系我们: 400-878-3819

企业概况

思迈特介绍

合作客户

荣誉资质

可信生态

企业文化

联系我们

品牌资讯

企业新闻

行业资讯

近期活动

媒体报道

招纳贤士

校园招聘

社会招聘

生态合作

合作伙伴招募计划

交付伙伴招募计划HOT

申请试用

400-878-3819

在线体验

AIChat对话分析

一站式ABI平台

电子表格软件

申请试用

AIChat对话分析

一站式ABI平台

电子表格软件

首页 > 数据百科 > 四种常用数据处理方式的比较

四种常用数据处理方式的比较

2021-06-11 14:43:41 | Smartbi大数据百科 10196

商业智能BI产品更多介绍：https://www.smartbi.com.cn/

商业智能BI产品更多介绍：点击前往

常用的数据处理方式（一）传统的ETL工具

传统的ETL工具比如Kettle、Talend、Informatica等，可视化操作，上手比较快，但是对于数据量上升导致性能出问题，可优化的空间就不是很大了，毕竟底层人家都已经帮你封装好了。

常用的数据处理方式（二）Mapreduce

写Mapreduce进行数据处理，需要利用java、python等语言进行开发调试，没有可视化操作界面来的那么方便，在性能优化方面，常见的有在做小表跟大表关联的时候，可以先把小表放到缓存中(通过调用Mapreduce的api)，另外可以通过重写Combine跟Partition的接口实现，压缩从Map到reduce中间数据处理量达到提高数据处理性能。

常用的数据处理方式（三）Hive

在没有出现下面要说的Spark之前，Hive可谓独占鳌头，涉及离线数据的处理基本都是基于Hive来做的，早期的阿里的云梯1就是充分利用Hive的特性来进行数据处理Hive采用sql的方式底层基于Hadoop的Mapreduce计算框架进行数据处理，所以他的优化方案很多，常见的场景比如数据倾斜，当多表关联其中一个表比较小，可以采用mapjoin，或者设置set hive.groupby.skewindata=true等，当碰到数据量比较大的时候，可以考虑利用分桶，分区（分为静态分区，动态分区）进行数据重新组织存储，这样在利用数据的时候就不需要整表去扫描，比如淘宝常常对一个业务场景利用不同算法进行营销活动，每个算法的营销活动可以存放到不同的分桶中，这样统计数据的时候就会提高效率。对于hive的性能优化我后面会有一个专题进行介绍，这里只简单提一下常用的场景。

常用的数据处理方式（四）Spark

Spark基于内存计算的准Mapreduce，在离线数据处理中，一般使用Spark sql进行数据清洗，目标文件一般是放在hdf或者nfs上，在书写sql的时候，尽量少用distinct，group by reducebykey 等之类的算子，要防止数据倾斜。在优化方面主要涉及配置每台集群每台机器运行task的进程个数，内存使用大小，cpu使用个数等。从我个人的角度来看，我觉得spark sql跟上面所说的hive sql差不多，只不过spark sql更加倾向于内存处理。但是他不具有较强的模板话，如果修改里面逻辑要重新编译调试运行，比较适合改动比较小的业务场景，比如数据仓库模型中ods，dwd层的数据处理。因为这两层都是宽表级别的粗处理，目的很简单旨在数据最优存储支撑上层ads层报表开发。

申请试用在线体验

上一篇：数学建模常用十大数据分析软件下一篇：改善企业业务的6个数据管理技巧