效益,因管理而变,管理因我们(Smartbi)而变
发布时间:2021-01-12 游览量:3292
作为数据分析师,想必你能够熟练的使用Excel数据透视表:自由组合行列字段、对数据进行多层次汇总、排序筛选、数据作图等等。而且,当原始数据发生更改时,可以立刻更新数据透视表。
但当你拿到一个几十万行的Excel文件,该怎么办呢?Excel毕竟只是桌面应用,处理的数据量有限,2003版只能处理6.5万行数据,2007/2010/2013支持100万行,但在实际应用中,当数据量变大后,Excel 的性能剧降,打开文件可能就需要几分钟。
大数据时代,Smartbi为数据分析师提供了新的武器,它内置了列存储数据库infobright,这是TB级别的数据库,支持亿、十亿条数据,用它来处理几十万行数据,自然不是问题。在前端操作界面上,Smartbi xQuery自助分析模块提供了浏览器版的数据透视表,操作方法和Excel类似。
下面以美国金融机构投诉数据分析为例,比较一下两个软件。数据来源于消费者金融保护局(Consumer Financial Protection Bureau),数据量37万条,数据时间跨越2011年12月至2015年4月。数据项目有投诉编号、投诉产品、子产品、问题、州、投诉时间、投诉公司等。
打开数据的速度
Excel文件大小约45M,在一台高配置电脑(四代酷睿I5+8G+SSD),Excel 2010打开文件约需30秒时间。
Smartbi需要先将Excel文件导入系统,首次导入步骤需要花费3-4分钟,但之后使用数据均无需任何时间。
界面比较
Excel数据透视表和smartbi的界面很接近,不同点在于Excel采用了目录型的结构,Smartbi采用了表格模式。当层次结构多时,Excel目录结构不太好,但可以通过设置布局调整为表格模式。
重计算速度
Excel在添加、删除维度后,重新计算的过程略显迟滞,Smartbi相对较快。30万行数据的差距不大,相信在更大数据量下,Smartbi的优势会更明显。
添加计算字段
原始数据只有日期字段,分析时需要按年度、月度进行汇总,所以需要添加计算字段,Excel在原始数据中插入两列,分别用Year()、Month()函数获取。
Smartbi可以新建计算字段,同样用函数提前年份、月份。
排序比较
Excel的排序功能较为隐蔽,尤其涉及多级排序时,需要多次选择排序字段。
Smartbi提供了分级排序功能,分析多层次数据时很方便。
数据筛选
Excel采用下拉框的方式来选择筛选项,对于小数据非常方便,但如果选择项目很多时略显难用。筛选项的数量上限是1万个。
Smartbi采用了对话框来选择筛选项,较适合大数据量,筛选项的数量没有上限。
交叉表
Excel交叉表的默认界面不会折行显示列标签,会把列撑的很宽,不太好看。当然你可以调整列宽,但操作上显的复杂。
Smartbi的默认行宽是固定的,数据会折行显示,界面更加友好。
总结:
Excel数据透视表确实强大,但当它碰到大数据的时候,就会发现它也有不爽之处:性能问题、界面细节问题、排序问题等等。Smartbi通过前端界面及后端存储方面的创新,对于大数据的分析显然更具优势。
电话:
邮箱: