当前位置: 首页 > backend >正文

Shuffle流程

正常情况下都是走MegeSortShuffle流程,特别是预聚合类shuffle算子(比如reduceByKey),但是数据量多的情况下,整个排序过程较慢,导致整个shuffle过程较慢,并且因为底层用的是归并排序,中间会产生多个文件

如果满足①分区数量小于等于spark.shuffle.sort.bypassMergeThreshold(默认值200)②不是预聚合类shuffle算子(比如groupByKey),会采用ByPass MegeSortShuffle(不经过排序的Shuffle),底层不用经过排序,用Hash对Task生成的文件进行初步分区,后面再写入到一个data文件和index文件中,效率明显提高.

http://www.xdnf.cn/news/13525.html

相关文章:

  • enumerable 和 configurable 属性详解
  • Vision Prompt Tune(视觉提示微调)
  • 如何在同一台电脑上安装并运行多个版本的 IntelliJ IDEA
  • Redis核心技术与实战指南
  • 品牌形象全面升级|Apache Fory:破界新生,开启高性能序列化新纪元
  • 单片机 - STM32 非阻塞式编程详解:以 LED 和按键为例(附超详细寄存器级代码)
  • 康谋方案 | 高精LiDAR+神经渲染3DGS的完美融合实践
  • html转markdown
  • 【JavaSE】IO流学习笔记
  • 让Python成为你的网站引擎:Django全栈开发初体验!!!
  • 蓝桥杯等竞赛场景下 C++ 的时间与空间复杂度深度解析​
  • 【论文解读】Search-o1:用 Agentic 搜索增强推理模型
  • Oracle 的AHF (Automatic Health Framework) 工具
  • java实现RabbitMQ消息发送和接收功能(包含测试)
  • 日语学习-日语知识点小记-进阶-JLPT-真题训练-N2阶段(1):单词部分练习
  • Unity3D SRP Batcher原理分析
  • DEM 地形分析与水文建模:基于 ArcGIS 的流域特征提取
  • Android 10.0 勿扰模式开启关闭功能实现
  • DevOps软件开发流程规范
  • 抖音授权登录-获取用户授权调用凭证
  • MySQL进阶之索引(1)索引结构分类语法和SQL性能分析
  • Guava常用工具类使用教程
  • 使用OpenCV和Python进行图像掩膜与直方图分析
  • Java基于局域网的聊天室系统设计与实现,附源码+论文
  • ACS的ExtendedSegmentArc1 方法说明
  • 代理模式:AOP 切面编程的底层实现基础
  • Hello Robot发布Stretch3机器人高保真模拟平台-Stretch MuJoCo v0.5-涵盖数百种Robocasa厨房应用测试场景
  • 零基础设计模式——行为型模式 - 中介者模式
  • 使用Jmeter做功能测试有哪些优点?
  • C++ 中的 iostream 库:cin/cout 基本用法