当前位置: 首页 > java >正文

Spark缓存--persist方法

1. 功能本质

persist:这是一个通用的持久化方法,能够指定多种不同的存储级别。存储级别决定了数据的存储位置(如内存、磁盘)以及存储形式(如是否序列化)。

2. 存储级别指定

persist:可以通过传入 StorageLevel 参数来指定不同的持久化级别。常见的持久化级别有:

MEMORY_ONLY:将 RDD 以 Java 对象的形式存储在 JVM 的内存中。若内存不足,部分分区将不会被缓存,需要时会重新计算。

MEMORY_AND_DISK:优先把 RDD 以 Java 对象的形式存储在 JVM 的内存中。若内存不足,会把多余的分区存储到磁盘上。

DISK_ONLY:将 RDD 的数据存储在磁盘上。

MEMORY_ONLY_SER:将 RDD 以序列化的 Java 对象形式存储在内存中,相较于 MEMORY_ONLY,序列化后占用的内存空间更小,但读取时需要进行反序列化操作,会带来一定的性能开销。

MEMORY_AND_DISK_SER:优先将 RDD 以序列化的 Java 对象形式存储在内存中,内存不足时存储到磁盘上。

cache:不能指定存储级别,它固定使用 MEMORY_ONLY 存储级别。

3.persist的示例

下面我们以DISK_ONLY为例,改写上面的程序,验证它的持久化效果。具体要改动的地方有两个: 指定持久化地址; 把cache改成persist;

conf.set("spark.local.dir", "/path/to/your/local/dir")

sc = SparkContext(conf)

val cachedRDD = largeRDD.map(complexTransformation).persist(StorageLevel.MEMORY_ONLY)

4. persist() 的核心优势

  1. 灵活性:可根据数据大小、集群资源选择最优存储策略。

  2. 性能优化

    • 内存充足时用 MEMORY_ONLY 避免磁盘 IO。

    • 内存不足时用 MEMORY_AND_DISK 避免频繁重计算。

  3. 资源平衡:通过序列化(如 MEMORY_ONLY_SER)减少内存占用,降低 OOM 风险。


5. 何时使用 persist()

适用场景
  • 迭代算法:如机器学习中的梯度下降、图计算的 PageRank。

  • 多阶段计算:同一数据集被多次用于不同操作(如过滤、聚合、JOIN)。

  • 交互式分析:在 Spark Shell 或 Notebook 中多次查询同一数据集。

不适用场景
  • 数据仅使用一次:缓存反而浪费资源。

  • 存储成本高于计算成本:如数据极大且后续操作简单。

http://www.xdnf.cn/news/4699.html

相关文章:

  • C++使用PoDoFo库处理PDF文件
  • 计算机网络
  • 【Java ee初阶】初始网络
  • 无实体对话式社交机器人 拟人化印象形成机制:基于多模态交互与文化适配的拓展研究
  • Sui Basecamp 2025 全栈出击
  • 前端-什么是结构语言、样式语言、脚本语言?
  • 【金仓数据库征文】金仓数据库 KES 助力企业数据库迁移的实践路径
  • 学习黑客什么是 ARP
  • Kafka消息队列之 【消费者分组】 详解
  • Windows系统下使用Kafka和Zookeeper,Python运行kafka(二)
  • 量子密码的轻量级通信协议笔记
  • viewDesign里的table内嵌套select动态添加表格行绑定内容丢失
  • DeFi开发系统软件开发:技术架构与生态重构
  • MariaDB 与 MySQL 的关系:从同源到分道扬镳
  • 单体架构实现延时任务
  • WPF实时调试的一种实现方法
  • 聊一聊接口的压力测试如何进行的?
  • 多商户进销存一体化管理,Java+Vue,含源码与文档,高效统筹库存、销售与采购,适配多元商业场景
  • 2.4 点云数据存储格式——轻量文本型存储格式
  • 在一台服务器上通过 Nginx 配置实现不同子域名访问静态文件和后端服务
  • CTF - PWN之ORW记录
  • 全球森林数据如何分析?基于R语言森林生态系统结构、功能与稳定性分析与可视化
  • 一键设置动态域名+ipv6内网直通访问ssh服务-家庭云计算专家
  • 关于 wordpress 统计访问量初始数值错误的解决方法
  • 【Pandas】pandas DataFrame abs
  • 2025年小程序DDoS与CC攻击防御全指南:构建智能安全生态
  • typecho中的Widget设计文档
  • Vscode (Windows端)免密登录linux集群服务器
  • 搭建和优化CI/CD流水线
  • VTK|.obj文件数据处理+Jet/Viridis/CoolToWarm/Grayscale/Rainbow/风格颜色渲染