【数据湖】Time Travel时间旅行
一、背景
在传统数据存储系统中(如关系型数据库),数据一旦被修改或删除,通常无法直接回溯到历史版本。而数据湖(Data Lake)作为一种存储海量结构化/非结构化数据的系统,需要支持数据版本管理和历史查询,以满足以下需求:
① 数据审计:追踪数据变更历史,确保合规性(如GDPR)。
② 错误恢复:当数据处理出错时,可回滚到之前的正确版本。
③ 实验分析:对比不同时间点的数据状态(如A/B测试)。
Time Travel(时间旅行)功能应运而生,它允许用户查询数据在任意时间点 的快照。
二、概念
Time Travel 是指数据湖系统能够:
1、记录数据变更历史(如每次写入、更新、删除操作)。
2、按时间戳或版本号查询历史数据(如“查看1小时前的数据”)。
3、恢复数据到特定时间点(类似数据库的“回滚”)。
其核心思想是: 数据不可变 + 版本元数据管理。
举例解释一下,假设数据湖是一个不断更新的表格