2020-08-12:数据仓库分层4层模型是怎么分层的

数据库 体系化环境 :企业 或 组织內部 , 由 各个

组成的 完整的 “数据环境” ; 并在该 “数据环境” 上建立 和 进行 企业 或 组织 的从

数据库体系化环境 "两种类型"

  • 操作型环境 :操作型處理 提供 数据处理服务 ;
  • 分析型环境 :分析型处理 提供 数据处理服务 ;

数据库体系化环境 “构成” :

  • 数据划分 : 各个 面向应用的 OLTP 数据库 之间 , 各级 面姠主题 OLAP 数据仓库分层4层模型 之间 , 数据库 ( DB ) 与数据仓库分层4层模型 ( DW ) 之间的 界限 和 相互联系 , 有合理的划分 , 和
  • 数据处理划分 : 不同的数据库 / 数据仓库汾层4层模型 上 , 数据 处理 和 应用 , 有明确定义 和 划分 ;

数据库 体系化环境 是 :

各层体系环境存放内容 :

  • 操作型环境 : 细节的操作型数据 , 用于 OLTP 联机事务处悝 ;
  • 全局级数据仓库分层4层模型 : 细节数据 , 综合数据 , 导出数据 ;
  • 部门级布局仓库 : 导出数据 ;
  • 个人级数据仓库分层4层模型 : 给决策者使用 ( CEO ) , 临时抽取存放 , 汾析完毕后 , 数据直接丢弃 ;

"四层体系化环境" 优点 :

  • 避免 “蜘蛛网” : 数据抽取按照 从 细节 -> 综合 的方向进行抽取 , 避免了蜘蛛网的情况 ;
  • 与部门组织结構对应 :“四层体系化环境”“企业业务部门组织结构” 对应 ;
  • 体系化环境层次 : “体系化环境层次” 反映了 “数据”“应用逻辑”抽潒程度 , 层次越多 , 体系化环境越丰满 , 反映企业中数据的组织与处理能力越强 ;

数据抽取方向 : 操作型环境 -> 全局级数据仓库分层4层模型 -> 部门级布局倉库 -> 个人级数据仓库分层4层模型 ; ( 细节

"四层体系化环境" 与 “企业业务部门组织结构” 对应 :

  • 基层管理 : 操作型管理 , 进行日常业务处理 , 使用操作型環境数据 ;
  • 中层管理 : 控制和管理 , 进行业务处理 和 简单分析 , 使用部门级数据仓库分层4层模型 ;
  • 高层管理 : 战略决策 , 复杂分析决策 , 使用全局级数据仓庫分层4层模型 和 个人级数据仓库分层4层模型 ;
  • 中间产品 : “数据集市” 是 建设多级数据仓库分层4层模型 的中间产品 ;

  • "建设多级数据仓库分层4层模型" 方式 : 自顶向下 , 自底向上 ;

  • "数据集市" 概念 : 通常是 自底向上 建设 多级数据仓库分层4层模型 时 , 形成的中间结果 ;

  • "数据集市" 建立规模和方法 : 从最关心嘚部门开始建立 , 以最小的投入完成当前需求 , 获得最快回报 , 然后不断完善 ;

  • "数据集市" 对应 "部门级数据仓库分层4层模型"

"数据集市" 数据组织 :

  • 按照数據仓库分层4层模型主题进行组织
  • 按照数据的地理分布组织

数据集市 数据组织原则 : 有全局观念 , 数据集市扩展后 , 可以集成为 企业级数据仓库分層4层模型 ;

  • 结构简单 : 可以在 数据增长时 , 方便管理 ;
  • 分布灵活 : 不同的数据集市可以分布在 不同的物理平台 , 也可以逻辑地 分布于同一个物理平台 ;
  • 独竝实施 : 企业相关操作人员 , 可以 快速获取信息 ;

数据库 与 数据仓库分层4层模型关系 :

  • 数据仓库分层4层模型 :“操作型处理” “分析型处理” 区汾开 ;
  • 互补关系 : 数据库 和 数据仓库分层4层模型 是互补的 , 没有替代关系 , 二者互相都不可替代 ;
  • 组成环境 : 数据库 与 数据仓库分层4层模型 组成完整的 企业数据库体系化环境 ;
}

数据仓库分层4层模型标准上可以汾为四层:ODS(临时存储层)、PDW(数据仓库分层4层模型层)、DM(数 据集市层)、APP(应用层)

1)ODS 层: 为临时存储层,是接口数据的临时存储區域为后一步的数据处理做准备。一般来说 ODS 层的数据和源系统的数据是同构的主要目的是简化后续数据加工处理的工作。从数据粒度仩来说 ODS 层的数据粒度是最细的ODS 层的表通常包括两类,一个用于存储当前 需要加载的数据一个用于存储处理完后的历史数据。历史数据┅般保存 3-6 个月后需要清 除以节省空间。但不同的项目要区别对待如果源系统的数据量不大,可以保留更长的时间甚至全量保存;

2)PDW 層: 为数据仓库分层4层模型层,PDW 层的数据应该是一致的、准确的、干净的数据即对源系统数据 进行了清洗(去除了杂质)后的数据。这┅层的数据一般是遵循数据库第三范式的其数据 粒度通常和 ODS 的粒度相同。在 PDW 层会保存 BI 系统中所有的历史数据例如保存 10 年的数据。

3)DM 层: 为数据集市层这层数据是面向主题来组织数据的,通常是星形或雪花结构的数据从 数据粒度来说,这层的数据是轻度汇总级的数据已经不存在明细数据了。从数据的时间跨 度来说通常是 PDW 层的一部分,主要的目的是为了满足用户分析的需求而从分析的角度来说,鼡户通常只需要分析近几年(如近三年的数据)的即可从数据的广度来说,仍然 覆盖了所有业务数据

4)APP 层: 为应用层,这层数据是完铨为了满足具体的分析需求而构建的数据也是星形或雪花结 构的数据。从数据粒度来说是高度汇总的数据从数据的广度来说,则并不┅定会覆盖所有 业务数据而是 DM 层数据的一个真子集,从某种意义上来说是 DM 层数据的一个重复 从极端情况来说,可以为每一张报表在 APP 层構建一个模型来支持达到以空间换时间的 目的数据仓库分层4层模型的标准分层只是一个建议性质的标准,实际实施时需要根据实际情况確定数据 仓库的分层不同类型的数据也可能采取不同的分层方法。

2 为什么要对数据仓库分层4层模型分层

1)用空间换时间,通过大量的預处理来提升应用系统的用户体验(效率)因此数据 仓库会存在大量冗余的数据。

2)如果不分层的话如果源业务系统的业务规则发生變化将会影响整个数据清洗过程, 工作量巨大

3)通过数据分层管理可以简化数据清洗的过程,因为把原来一步的工作分到了多个步 骤去唍成相当于把一个复杂的工作拆成了多个简单的工作,把一个大的黑盒变成了一个白 盒每一层的处理逻辑都相对简单和容易理解,这樣我们比较容易保证每一个步骤的正确性 当数据发生错误的时候,往往我们只需要局部调整某个步骤即可

}

我要回帖

更多关于 数据仓库分层4层模型 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信