当前位置: 首页 > java >正文

运行Spark程序-在shell中运行1

分布式计算要处理的问题

【老师提问:分布式计算要面临什么问题?】

【老师总结】

分布式计算需要做到:

1.分区控制。把大的数据拆成一小份一小份的(分区,分片)让多台设备同时计算,所以要分区。

2.Shuffle控制。不同分区之间的数据是需要有关联的,在不同的分区之间进行数据的传输就是Shuffle,也叫洗牌。

3.数据存储\序列化\发送

4.数据计算API

等等一些功能。

【举例讲案例】

我们用期末考试结束,老师们批改全校试卷的例子来解释这些概念。

老师们批改试卷时,会按照一定的规则进行分工。比如,先把试卷按照班级分成不同的 “分区”,每个班级的试卷就是一个独立的分区,就像分布式计算中把数据划分成不同的部分进行处理。然后,不同学科的老师负责批改相应学科的试卷,这就是 “区域控制”,每个学科区域专注于自己的任务。

在批改试卷之前,需要对试卷信息进行整理,就像 “数据的存储序列化”。例如,将学生的基本信息、题目内容以及对应的分值等信息整理成规范的格式,以便于后续的处理。这个过程就如同将数据转换为计算机能够理解和处理的形式。

当试卷分发到各个老师手中开始批改时,这类似于 “发送数据” 和 “计算” 的过程。老师们根据评分标准给试卷打分,这就是 “计算” 操作,每个老师就如同一个计算节点,各自处理分配到的试卷任务。

而在批改过程中,可能会出现一些特殊情况,比如某些题目的评分标准需要进一步明确或者不同老师对某个答案的理解有差异。这时就需要进行沟通和协调,就像分布式计算中的 “SHUFFLE”(洗牌)过程。老师们会交流讨论,重新梳理评分标准,确保批改结果的一致性。这个过程就像是在分布式系统中,不同节点之间的数据交换和协调,以保证整个任务的顺利进行。

http://www.xdnf.cn/news/5865.html

相关文章:

  • 智源联合南开大学开源Chinese-LiPS中文多模态语音识别数据集
  • base64形式的图片数据保存方法
  • Redis介绍与使用
  • 【git】clone项目后续,github clone的网络配置,大型项目git log 输出txt,切换commit学习,goland远程,自存档
  • 关于maven的依赖下不下来的问题
  • Git基本操作命令
  • 专题四:综合练习( 找出所有子集的异或总和再求和)
  • 解锁Python TDD:从理论到实战的高效编程之道(9/10)
  • 时间序列预测建模的完整流程以及数据分析【学习记录】
  • 选择单例还是依赖注入
  • 【每天一个知识点】Dip 检验(Dip test)
  • CSS经典布局之圣杯布局和双飞翼布局
  • spark-cache模式
  • ubuntu22.04编译PX4无人机仿真实践
  • EMQX v5.0通过连接器和规则同步数据
  • PyInstaller 打包后 Excel 转 CSV 报错解决方案:“excel file format cannot be determined“
  • 【LUT技术专题】SPFLUT代码解读
  • Mirror的多人连接管理及房间系统
  • github 上的 CI/CD 的尝试
  • 掌握Multi-Agent实践(五):基于KIMAs的多智能体知识集成系统构建与应用实践
  • 每日算法刷题计划Day5 5.13:leetcode数组3道题,用时1h
  • AFFS2 的 `yaffs_ext_tags` 数据结构详解
  • 大模型MCP_MCP从流式SSE到流式HTTP_1.8.0支持流式HTTP交互_介绍_从应用到最优--人工智能工作笔记0245
  • C++修炼:继承
  • API的学习总结(上)
  • # 08_Elastic Stack 从入门到实践(八)---1
  • 每日Prompt:发光线条解剖图
  • 生信小白学Rust-03
  • 机器学习之决策树模型:从基础概念到条件类型详解
  • 【WIN】笔记本电脑忘记密码解决办法/笔记本电脑重装系统笔记/bitlocker忘记密码的解决办法