当前位置: 首页 > java >正文

数据湖 (特点+与数据仓库和数据沼泽的对比讲解)

数据湖就像一个“数据水库”,把企业所有原始数据(结构化的表格、半结构化的日志、非结构化的图片/视频)原样存储,供后续按需分析。
对比传统数据仓库

数据仓库数据湖
数据清洗后的结构化数据(如Excel表格)原始数据(日志、图片、CSV、JSON)
模式先定义结构再存数据(Schema-on-Write)先存数据再按需定义结构(Schema-on-Read)
用途固定报表、BI分析机器学习、探索性分析、灵活挖掘

数据湖的3大核心特点

  1. 存一切原始数据
    • 例子:电商公司把用户点击日志、客服录音、商品图片都丢进数据湖。
  2. 低成本存储
    • 技术:用Hadoop HDFS、Amazon S3、阿里云OSS等分布式存储,1TB月费仅5美元。
  3. 按需分析
    • 工具:SQL查询(Hive、Presto)、机器学习(Spark ML)、可视化(Tableau)。

数据湖典型架构(3层设计)

  1. 存储层:原始数据直接存储(如AWS S3)。
  2. 处理层:清洗、转换数据(用Spark、Flink)。
  3. 服务层:供分析师、数据科学家按需使用(如用Jupyter Notebook分析)。

数据湖 vs 数据沼泽

  • 成功的数据湖:有元数据管理(知道存了什么)、访问权限控制、数据目录。
  • 失败的数据沼泽:数据乱堆不放标签,找数据像“大海捞针”。
    关键工具
  • 元数据管理:Apache Atlas、AWS Glue Data Catalog。
  • 数据治理:Collibra、Alation。

数据湖的3个实际应用

  1. 用户行为分析
    • 案例:抖音把每个用户的点击、播放、停留时间存入数据湖,训练推荐算法。
  2. 物联网(IoT)
    • 案例:特斯拉将车辆传感器数据实时写入数据湖,分析电池健康状态。
  3. 金融风控
    • 案例:支付宝用数据湖存储交易记录、地理位置、设备信息,实时检测欺诈交易。

一句话总结

数据湖 = “原始数据仓库”,存一切数据,不预设用途,需配合治理工具避免成“数据垃圾场”。

http://www.xdnf.cn/news/9953.html

相关文章:

  • cursor rules设置:让cursor按执行步骤处理(分析需求和上下文、方案对比、确定方案、执行、总结)
  • SpringCloud——Docker
  • vscode中让文件夹一直保持展开不折叠
  • Spring Boot3.4.1 集成 mybatis plus
  • Spring Boot 中 @RequestParam 和 @RequestPart 的区别详解(含实际项目案例)
  • 【maker-pdf 文档文字识别(包含ocr),安装使用完整教程】
  • 云原生时代 Kafka 深度实践:03进阶特性与最佳实践
  • 【题解-洛谷】P7795 [COCI 2014/2015 #7] PROSJEK
  • Hive在实际应用中,如何选择合适的JOIN优化策略?
  • 探索三维螺旋线的几何奥秘:曲率与挠率的计算与可视化
  • python学习day33
  • SpringBoot WebMvcConfigurer使用Jackson统一序列化格式化输出
  • DDP与FSDP:分布式训练技术全解析
  • python常用库-pandas、Hugging Face的datasets库(大模型之JSONL(JSON Lines))
  • EasyRTC嵌入式音视频通信SDK助力1v1实时音视频通话全场景应用
  • 图解gpt之Transformer架构与设计原理
  • ONNX模型的动态和静态量化
  • 2024 CKA模拟系统制作 | Step-By-Step | 17、题目搭建-排查故障节点
  • 因泰立科技:镭眸T51激光雷达,打造智能门控新生态
  • 立控信息智能装备柜:科技赋能军队装备管理现代化
  • WindowServer2022下docker方式安装dify步骤
  • 大厂前端研发岗位设计的30道Webpack面试题及解析
  • CAD多边形密堆积2D插件
  • SpringBoot+Vue+微信小程序校园自助打印系统
  • Spring Boot 基础知识全面解析:快速构建企业级应用的核心指南
  • 用Git管理你的服务器配置文件与自动化脚本:版本控制、变更追溯、团队协作与安全回滚的运维之道
  • 服务器Docker容器创建与VScode远程连接SSH使用
  • quasar electron mode如何打包无边框桌面应用程序
  • 从零到一:我的技术博客导航(持续更新)
  • 基于开源链动2+1模式AI智能名片S2B2C商城小程序的企业组织生态化重构研究