文不如表,表不如图,先上一张大数据平台架构图:
按数据流向自下而上,将大数据平台分为3层:
原始数据层
数据仓库层
数据应用层
下面就一一来说明。
第1层-原始数据层
在这一层中完成的是数据从业务数据系统传输到ODS操作型数据层的过程。业务数据通常是来源于各个业务系统(比如crm系统、订单系统等)、用户操作日志或其他第三方等数据系统,这一过程的主要目的是将来自各方的数据在ODS操作型数据库中实现数据集中。集中后的数据可以缓解业务系统的查询压力,同时方便地支持多维度分析等查询功能。
这个过程中,我们要关注的是数据抽取的接口、数据量的大小、抽取方式。
ODS操作型数据层的数据特点:
根据业务需求,通常是实时、分钟级或天级从业务数据层获取数据
存储的是当前的、不断变化的数据,历史数据通常保存3-6个月
第2层-数据仓库层
数据仓库不是一个独立的个体,它是大数据平台的一部分,是一个集成化的、面向主题的数据存储集合,它既不生产数据,也不消费数据,它存储的通常是历史的、不再变化的数据。数据仓库的特点是:
1.面向主题
数据仓库的主要功能就是向数据应用层提供信息以作出决策,所以数据仓库通过一个个主题域将多个业务系统的数据加载到一起,来实现对各个主题的分析,可以明显地提升效率。
2.集成性
数据仓库中的数据来源于众多不同数据源。数据仓库系统将多处的数据源通过一定的规则进行etl处理,再聚合集成到数据仓库。
3.稳定性
对数据仓库中的数据一般仅执行查询操作,很少会有删除和更新。这些数据是为企业数据分析而建立,所以数据被加载后一般情况下将被长期保留。
4.数据的切片存储
数据仓库的数据存储是加了时间戳的,相当于是把数据按照快照的方式存了n个版本,从而避免业务数据被不断覆盖,使得历史时间的数据可追溯分析。
除了数据仓库的几个典型特点,数据仓库的数据分层级存储也是我们要关注的一个点,这个架构一方面跟数据拉取方式有关,另一方面也是为了对数据进行层级的抽象处理。数据仓库主要分为基础层、主题层、数据集市层三层。
1.基础层
ODS层的数据经过简单的etl处理进入基础层,通过建模的方式,经业务模型、领域模型、逻辑模型、物理模型一系列处理,来实现对数据的轻度汇总,产出轻度汇总明细表、维度表等。
这个过程中,对于数据的etl处理,会涉及到一些数据错误、遗漏、不规范、不统一等问题,产品经理需要和研发工程师做好沟通,提供数据清洗逻辑。
2.主题层
主题层的存储的是高度综合的数据,是由ODS层和基础层的数据按照一定的维度和业务逻辑聚合而来,仍然覆盖了所有的业务数据,只是它的数据存储形式是面向主题的,比如订单主题、商品主题、物流主题等,目的是可以满足用户分析某个主题的需求。
这一层的搭建规则要依赖于公司业务需求,所以产品经理需要对业务有深入的理解。
3.数据集市**层**
数据集市可以理解为是一种“小型数据仓库”,一般面向部门、面向主题或特定应用,它最主要作用是将主题数据组合成数据分析模型,数据的结构通常是由事实表和维度表构成的星型结构或雪花结构。
星型模型是面向主题的常用模式,主要由一个事实表及多个维表构成,不存在二级维表。
雪花模型是在星型模型基础上将维度表再次扩展,好处是耦合性低,冗余小。缺点是需要跨多表查询时性能低。
第3层-数据应用层
数据仓库的数据通常服务于数据可视化报表、数据分析(包含数据挖掘)、即席查询等。
数据报表几乎是每个数据仓库的必不可少的一类数据应用,将聚合数据和多维分析数据展示到报表,使数据更直观、易理解。
数据分析是数据仓库的主要应用,用户可以提取到隐藏的、重要的信息,进而开展描述性、预测性、指导性的数据分析,为企业提供更大的商业价值。
即席查询是用户根据自己的需求,灵活的选择查询条件,系统能够根据用户的选择生成返回响应的结果,例如返回用户自定义的统计报表。这需要数据库内部实时自动优化,所以即席查询也是评估数据仓库的一个重要指标。在一个数据仓库系统中,即席查询使用的越多,对数据仓库的要求就越高,对数据模型的的要求也越高。
总结
针对大数据平台,作为产品经理,我们首先应该做到:
1.了解大数据平台的架构、数据的流转与处理,方便与研发沟通交流
2.在数据清洗时,能够提供保证数据质量的数据清洗规范
3.对业务要有深刻的理解,能更好地了解或参与主题构建、数据分析模型构建
参考资料
1.《数据产品经理修炼手册》
2.数据仓库学习笔记:修炼数据产品经理
http://www.woshipm.com/data-analysis/950578.html
3.数据仓库的基本架构
http://www.woshipm.com/pd/676.html
4.大数据时代:数据仓库搭建之路
http://www.woshipm.com/data-analysis/1932441.html
一个数据人的自留地是一个助力数据人成长的大家庭,帮助对数据感兴趣的伙伴们明确学习方向、精准提升技能。
扫码关注我,带你探索数据的神奇奥秘
发表评论 取消回复