当前位置: 首页 > web >正文

LakeHouse--湖仓一体架构

大家可能发现了,近些年湖仓一体数据架构被提及的频率越来越高。各家大厂也有湖仓一体架构的实践,也有很多公开分享。 那什么是湖仓一体?为什么出现了湖仓一体架构,换言之,它解决了以前数据仓库、数据湖+数仓两层架构所不能解决的什么问题?

本文会从数仓、数据湖依次介绍,最终介绍LakeHouse湖仓一体架构。

主要参考了CIDR 2021 上Databricks 发表的论文:《 Lakehouse: a new generation of open platforms that unify data warehousing and advanced analytics》。

paper下载地址:https://www.cidrdb.org/cidr2021/papers/cidr2021_paper17.pdf

一、背景

数据仓库的历史始于帮助企业领导者获取分析洞察,方法是将运营数据库中的数据收集到集中式仓库中,然后用于决策支持和商业智能(BI)。这些仓库中的数据将采用Schema-on-Write的的方式写入,从而确保数据模型针对下游 BI的使用进行了优化。我们称之为第一代数据分析平台。

这样的数据仓库在十多年前开始面临一些问题:

  • 1、这样的数仓将存储和计算资源绑定到同一个设备上,企业不得不为了峰值负载而预留一些资源,随着数据越来越多,这样做的成本也变得越来越昂贵。
  • 2、第一代数据仓库主要是针对结构化数据设计的,但是随着互联网的发展,出现了越来越多的半结构化或者非结构化数据,例如视频、音频、文档等,第一代分析平台没有办法很好地处理这样的数据。
http://www.xdnf.cn/news/18133.html

相关文章:

  • 防御保护16
  • 【更新公告】C++算法·线段树
  • CSDN部分内容改为视频转到B站-清单
  • 容器化部署:用Docker封装机器翻译模型与服务详解
  • NY243NY253美光固态闪存NY257NY260
  • AI的下一个竞争焦点——世界模型
  • ABAP AMDP 是一项什么技术?
  • Redis--day6--黑马点评--商户查询缓存
  • Git代码库安装与管理常用操作
  • WSL 配置文件 wsl.conf 设置
  • 学习日志35 python
  • 后台管理系统-3-vue3之左侧菜单栏和头部导航栏的静态搭建
  • 如何在 Ubuntu 24.04 Server 或 Desktop 上安装 XFCE
  • 基于隐私保护的旅游信息共享平台(LW+源码+讲解+部署)
  • 安卓四大组件基础题
  • 美国服务器环境下Windows容器工作负载智能弹性伸缩
  • Agent中的memory
  • 17.3 全选购物车
  • MyBatis 的 SQL 拦截器:原理、实现与实践
  • 【力扣-多数元素 JAVA/Python】
  • GaussDB 数据库架构师修炼(十三)安全管理(4)-数据库审计
  • Reading Coach-微软推出的免费AI阅读教练
  • 洛谷B3924 [GESP202312 二级] 小杨的H字矩阵
  • Wi-Fi 7 将如何重塑互联工作场所
  • Linux软件编程:进程与线程(线程的传参、属性、通信(互斥锁、信号量))
  • 存储、硬盘、文件系统、 IO相关常识总结
  • Boost库核心组件与应用
  • 图论Day4学习心得
  • MyBatis极速通关中篇:核心配置精讲与复杂查询实战
  • MATLAB R2010b系统环境(二)MATLAB环境的准备