商业智能BI产品更多介绍:https://www.smartbi.com.cn/
商业智能BI产品更多介绍:点击前往
业务操作系统同步进入数仓的数据表中,通常会将某一属性的可枚举值一代码的形式表示(如,商品类型<01:服装;02:食物>),而代码的具体含义会在表属性的说明中或者在数据字典的说明文档中。这样做的目的是方便对其维护并提高在业务系统中的存取效率。 在数据仓库这种分析型的系统中,为了能够完善其可解释性,最佳的方案是增加一个与代码表示列对应的文字描述属性列,目的是描述代码表示列的具体含义,使分析人员可以更便捷的根据需要进行过滤、访问和组织数据。
一些布尔类的属性列,其属性值在业务系统中可能会以各种不同的形式出现,如,可以是整形的0和1,或者是字符型的“Y”和“N”,亦或是“True”和“False”,统一张维度表中,不同的布尔类属性列使用不同的表示方式,将会使维度表的使用效率大打折扣,分析人员在使用维度表的布尔类属性列时需要不断的去查询说明文档,确认每个属性列的表示方式。 在生成维度属性时,将这些布尔类的属性列的标志值做统一规定,使用0/1或者Y/N进行表示,这样其表示也更加明确,使用更加便捷,也不会在生成报表过程中其意义含糊不清。
数据仓库获取的数据充满了不确定性,既会有业务系统中表属性的各种随性组合,也会有一些标准化可按照特定规则拆分的属性(如,客户的身份证号码、买家的收货地址邮编等),如果能够按照既定的规则对维度表的属性做合理的拆分,将会进一步丰富维度表的表达能力。 业务系统中存储的客户身份号码,可以依据身份号码的构成规则进行拆分。18位身份证号码,1-2位表示省、直辖市;3-4位表示地级市;5-6位表示区、县;7-14位表示出生年月;第17位表示性别(男为单,女为双)。这样,依据身份证号码的构成,一个身份证号码,可以扩展出客户户籍省、市、区县、出生年月、性别至少5个维度属性,并且出生年月还可以进一步拆分扩展,每个拆分出的属性,可参照上述1,增加对应的文字描述,完善代码属性值和文字描述属性一一对应,拆分扩展后的维度表将会有更强的表达能力。
属性组合与属性拆分相互对应,属性拆分的目的是从一个固定的编码中获取更加详细的维度属性,丰富维度的可解释行;属性组合则是相反的过程,是将一些具有相关性的维度属性列进行组合,方便在查询时的维度属性使用或展示。 比如业务操作系统存储的地区代码或者地区名称,我们会根据业务上的使用习惯会进行适当的组合,将省份、城市组合,或者将城市、区县组合,在做查询应用或页面展示时都是不错的选择。通常会选择根据业务需求进行适当组合,不必穷尽所有排列组合,因为数据仓库建设的目的主要还是在于能更便捷的应用数据。
考虑到“事实”通常是数值型,作为“维度”的数值型属性往往容易被忽略掉。同时数值型属性究竟是该被归入“事实”中还是该被归入到“维度”中也让很多人感到困惑。简单来讲,数值型的属性既可以作为“事实”,同时也可以作为“维度”属性。 当数值型属性用作聚合汇总时,那么无疑就是“事实”;用作查询过滤条件或者分组键时,也可以作为“维度”属性。比如“商品价格”,其可以同时出现在事实表和维度表中,在事实表中可以作为指标度量计算商品成交的平均价格,在维度表中则可以通过价格去分析商品在不同价格或者不同价格区间的成交情况。
统计型维度属性一般指并非维度实体固有的属性,而是随着业务的发展,在业务过程中产生的一些实体相关的行为统计信息(如,近30天商品销量)。这些统计信息一般是作为分析的结果数据进行输出,但由于其描述仍然是维度实体,自然也可以作为维度属性来应用。统计型维度属性需要考虑的问题主要在于更新的频率,一般将其与维度的基本属性进行拆分开来存储,基本属性相对变化较少,而统计型维度属性易变的体质通常会作为维度基础属性表的扩展表进行存储和应用。
通用型维度属性是在使用数仓过程中不断总结,不断沉淀的一些与业务强相关的维度属性。一般是具有复杂计算逻辑的维度属性,如需要经过多张表关联计算,或者在企业范围内超高频使用的分析逻辑。不断的沉淀这些通用的维度属性,一方面是提高下游使用的便捷性,另一方面也能保证数据口径的一致性。如,在业务上可能需要分析分销OR自营商品数据表现,最佳实现是将商品“是否分销”的维度属性进行封装,统一构造进入维度表中,保证数据口径的一致性。
更聪明的大数据分析软件,快速挖掘企业数据价值!
最新上架
麦粉市场集合了海量可视化大屏模板,会员可下载到本地使用物业大数据分析平台
【最新】人力资源(HR)应用 【最热】公司总体薪酬分析银行风险管理
【最新】集团项目管理应用 【最热】银行经营分析电网大数据分析平台
【最新】销售营销应用模板 【最热】房地产经营运营应用电话:
邮箱: