大数据基础概念
1. 数仓规划
数仓分层
结合业务场景、实际数据、使用系统的综合分析,对数据模型的整体架构设计及物理层的详细划分。好处是便于组织、管理、维护数据。
数仓分层、数据域、业务过程、数据集市、主题域等要素,共同确定了您此次建模的逻辑数仓架构。其中,数据域及业务过程位于公共层,用于公共层数据模型的构建;数据集市及主题域位于应用层,用于面向具体业务应用的模型构建。
各层说明
数据引入层ODS(Operational Data Store)
- 将原始的结构化数据增量或全量同步至数据仓库中。
- 将原始的非结构化数据(例如,日志信息)进行结构化处理,并存储。
- 根据实际业务需求,记录原始数据的历史变化或对原始数据进行简单的清洗。
注意:ODS层的数据表,命名必须以
ods开头,且生命周期为366天。
明细数据层DWD(Data Warehouse Detail)
数据中间层DWM(Data Warehouse Middle)
汇总数据层DWS(Data Warehouse Summary)
应用数据层 ADS(Application Data Service)
公共维度层 DIM(Dimension)
2. 业务分类
3. 公共域
数据域
根据业务类型、数据来源、数据用途等多维度对企业进行区域划分。

数据标准
- 给各种含义相同但字段名称不同的数据进行统一规范管理
- 标准代码:取值范围
- 度量单位
- 命名词典
3. 维度建模
- 维度表:我们需要考虑的因素
- 明细表
- 汇总表
- 应用表
数据更新周期标识
- 每日增量:di
- 每日全量:df
- 每月增量:mi
- 每月全量:mf
- 小时增量:hi
- 小时全量累计:hf
- 实时增量:ri
- 实时全量:rf
- 15分钟全量:qhf
- 15分钟增量:qhi
- 小时当天累计:hh
- 小时月增量:hm
- 每周全量:wf
- 每周增量:wi
- 每季度全量:qf
- 每季度增量:qi
- 每年全量:yf
- 每年增量:yi
4. 数据指标
- 分为原子指标和派生指标,参数分为修饰词和时间周期。
- 派生指标由原子指标+时间周期+一个或多个修饰词组成
5. 数据库基础
主要为SQL语言。SQL是Structured Query Language的缩写,意为结构化查询语言。SQL已经被国际标准化组织(ISO)进行了标准化,使它成为正式的和事实上的定义和操纵关系数据库的标准语言。
SQL语言又可分为DDL、DML、DCL、TCL四类:
DDL(Data Definition Language)
数据定义语言,用于定义数据库结构和模式。典型的DDL有:
createalterdroptruncatecommentrename
DML(Data Manipulation Language)
数据操纵语言,用于检索、管理和维护数据库对象。典型的DML有:
selectinsertupdatedeletemergecallexplainlock
DCL(Data Control Language)
数据控制语言,用于授予和回收数据库对象上的权限。典型的DCL有:
grantrevoke
TCL(Transaction Control Language)
事务控制语言,用于管理DML对数据的改变。它允许一组DML语句联合成一个逻辑事务。典型的TCL有:
commitrollbacksavepointset transaction
6. 星型模型
星型模式的物理模型像一颗星星的形状,中心是一个事实表,围绕在事实表周围的维度表表示星星的放射状分支,这就是星型模式这个名字的由来。
事实表
记录了特定事件的数字化的考量,一般由数字值和指向维度表的外键组成。
事实表类型
- 事务事实表:记录特定事件的事实,如销售。
- 快照事实表:记录给定时间点的事实,如月底账户余额。
- 累积事实表:记录给定时间点的聚合事实,如当月的总的销售金额。
一般需要给事实表设计一个代理键作为每行记录的唯一标识。代理键是由系统生成的主键,它不是应用数据,没有业务含义,对用户来说是透明的。
优点
- 简化查询
- 业务报表逻辑清晰
- 获得查询性能
- 便于向立方体提供数据
缺点
- 不能保证数据完整性
- 对于分析需求来说不够灵活
7. 雪花模式
雪花化就是将星型模式中的维度表进行规范化处理。
优点
- 一些OLAP多维数据库建模工具专为雪花模型进行了优化
- 规范化的维度属性节省存储空间
缺点
- 维度属性规范化增加了查询的连接操作和复杂度
- 不确保数据完整性