数仓分层这个概念想必大家都很熟悉,不管是在实际的开发工作当中会用的,还是在面试官面试你的时候会问到:你之前的项目是按照什么分层的,分哪几层,数仓分层有什么好处,举个栗子说说。
简而言之,数仓分层,是大家不能避过去的一个重点知识。
接下来,我会分享自己在多年的大数据行业的关于数仓分层的一些知识点与观点。
0,先说说什么是数仓分层吧
数据仓库:是一个由 有主题性的,可数据存储,可数据管理,方便数据开发于一体的集合。
数仓分层之后,每一层的数据的粒度,作用都很清晰,主题鲜明,也方便大数据开发人员对于业务的开发。
1,基于项目中Hive数据仓库的ETL数据流
下面这张图是在项目上的数据架构,数据的流向图:
2,数仓分层是怎么分的?分为哪几层?
一般在任何一家公司,不管是保险,银行,基金,证券,都会分4层。
比如说下图(某银行项目)为例:有SA,SHDATA,CDL,DM 四层
比如说下图(某证券项目)为例:有ODS,EWD,CDM,ADM 四层
ODS层,从各个原系统拿数据,进行数据入湖。数据一般不做任何处理,与源数据无差异。
EDW层,在ODS层的基础上,解决数据一致性的问题。
CDM层,为公共数据层,会开发出一些表,作为公共层,被下游(ADM层使用)。
ADM层,为集市应用层,开发出最终的接口表给业务使用。
3,为什么要进行数仓分层呢?有什么好处嘛?
这个对于做过银行,证券的项目开发,基金公司的数据运维之后,理解的更加深刻了。
3.1,好处一:方便数据的血缘追踪,确定影响范围。
3.1.1,(基金项目)
当每天的数据跑批完毕,把接口表(目标表)的数据报送给证监会或者人民银行的时候会给你进行数据校验,如果有问题会返回一个bad,告诉你哪条数据的哪个字段不对不符合哪个校验规则。这个时候,如果你刚入职,恰巧又拥有扎实的sql技能,别慌,你可以查看该代码,尽管有很多层代码的,但你可以一直追根溯源,查出在哪一层出错。关键是,你可以根据这一层出错,分析出哪些区域的数据受到了影响,数据是不正确的。
3.1.2,(银行项目)
简单的说,我们把应用集市的数据给到下游,最终给业务呈现的是一个业务表,如果业务人员发现某个业务表的部分数据不对,怎么办?我们要根据开发的代码,倒推出数据在哪一层的时候就开始不对,出现了问题。当然出现问题的原因可能有N多种,但是我们溯源出最底层的问题之后,我们可以快速判断,它的危害范围,及时的去维护好数据,把损失降到最低。
3.2, 好处二:复杂问题简单化,清晰数据结构
如果一个计算过程,太过于复杂,比如说要计算年度客户量??
我们可以先展示日维度的客户详细,可以查看明细数据。
接着根据日维度的客户数据,按照月维度进行汇总。
最后根据月维度的客户数据,按照年维度进行汇总。
依次展示三层的数据,咱就把复杂的问题,一步步拆解为简单化,每一层的数据结构很清楚,并且作用很明显。
重点是留下了一些余地,为什么这么说?
如果下次有个需求要算同比,环比的客户数据量呢??
求同比,直接拿年维度的中间表。求环比,直接拿月维度的中间表。
分层的好处真的太多了,更加具有前瞻性。
3.3,好处三:减少重复开发
规范数据分层,开发通用的一些中间层的表,可以极大的减少重复计算。
因为很多的业务表可能都有中间层的计算,如果大家都从源表开始依赖取数计算,那重复计算也太多了。如果直接拿中间层结果表,那计算量大大减少。
并且中间层表还比较好进行追溯,如果计算逻辑发生变更,咱们只需要更改中间表就行,而不需要把每个涉及到的业务表都去更改,那也太费劲了。
3.4,好处四:隔离原始数据
以3.2的栗子来讲,咱最终统计的数据的年客户量,就与咱们的底层数据隔离开来了。
不仅仅与底层数据隔离,而且还和月维度,日维度的数据也隔离开来了。
底层一套数据,最终的集市应用层又有一套数据,明显解耦。
3.5,好处五:以空间换时间
以空间换时间,什么意思?
以3.2的栗子来讲,咱最终要统计的数据的年客户量。理论上,咱们只需要落地这一张最终的业务表就行,但是,咱们为了大局着想,为了好追溯,为了懒得再多些代码,为了逻辑清晰层次分明,咱们又建立了一个大家公用的中间表(或者不一定是公共表,也可以是自己落地该表的独有的中间表,为了方便追根溯源),那这中间表又多占了存储空间。
虽然说多占了空间吗,但是计算量明显减少了啊,时效性上来了啊。咱也好针对问题进行追根溯源,方便你我他去依赖,开发人员的工作效率也上去了。好处太多了。
多占空间,这是弊端,提升效率,这是优势。
但世界上哪有这么好的事情呢,既可以少占空间,还计算的快,还方便查问题。
咱做人不能既要又要还要!!!
===============================================================
ok,如果面试官问你这个知识点,你可以这么密集的输出你的心得,那肯定会得到面试官的青睐。好吧,分享了这么多,希望你可以清晰的理解,什么是数仓分层?为什么要数仓分层?