当前位置：首页 > ai >正文

spark行动算子

ai 2025/7/1 20:02:27

在 Apache Spark 中，行动算子（Action）用于触发对 RDD 的实际计算，并将结果返回给驱动程序（Driver）或保存到外部存储系统中。与转换算子（Transformation）不同，行动算子会立即触发作业的执行，因为它们需要将计算结果输出到外部。

以下是 Spark 中常见的行动算子及其功能：

返回值到驱动程序的行动算子

collect()
- 功能：将 RDD 中的所有元素返回到驱动程序中，以数组的形式返回。
- 用途：用于查看 RDD 的内容，但需注意，如果 RDD 很大，可能会导致驱动程序内存溢出。
- 示例：
```
rdd = sc.parallelize([1, 2, 3, 4, 5])
result = rdd.collect()
print(result)  # 输出：[1, 2, 3, 4, 5]
```

take(n)

功能：返回 RDD 中的前 n 个元素。
用途：用于快速查看 RDD 的部分数据。

示例：

rdd = sc.parallelize([1, 2, 3, 4, 5])
result = rdd.take(3)
print(result)  # 输出：[1, 2, 3]

first()

功能：返回 RDD 中的第一个元素。
用途：用于获取单个元素。

示例：

rdd = sc.parallelize([1, 2, 3, 4, 5])
result = rdd.first()
print(result)  # 输出：1

count()

功能：返回 RDD 中的元素个数。
用途：用于统计 RDD 的大小。

示例：

rdd = sc.parallelize([1, 2, 3, 4, 5])
result = rdd.count()
print(result)  # 输出：5

countByKey()

功能：对键值对 RDD，返回每个键对应的元素个数。
用途：用于统计每个键的出现次数。

示例：

rdd = sc.parallelize([("a", 1), ("b", 2), ("a", 3)])
result = rdd.countByKey()
print(result)  # 输出：{'a': 2, 'b': 1}

reduce(func)
- 功能：对 RDD 中的所有元素应用函数 func，并将结果返回到驱动程序。
- 用途：用于对 RDD 进行聚合操作。
- 示例：
```
rdd = sc.parallelize([1, 2, 3, 4, 5])
result = rdd.reduce(lambda a, b: a + b)
print(result)  # 输出：15
```

将结果保存到外部存储的行动算子

saveAsTextFile(path)
- 功能：将 RDD 保存为文本文件。
- 用途：用于将 RDD 的内容保存到文件系统（如 HDFS、本地文件系统等）。
- 示例：
```
rdd = sc.parallelize([1, 2, 3, 4, 5])
rdd.saveAsTextFile("output/path")
```
saveAsSequenceFile(path)
- 功能：将 RDD 保存为 Hadoop 序列文件。
- 用途：用于将 RDD 保存为二进制格式的文件。
- 示例：
```
rdd = sc.parallelize([("a", 1), ("b", 2)])
rdd.saveAsSequenceFile("output/path")
```
saveAsObjectFile(path)
- 功能：将 RDD 保存为序列化对象文件。
- 用途：用于将 RDD 以 Python 对象的形式保存到文件中。
- 示例：
```
rdd = sc.parallelize([1, 2, 3, 4, 5])
rdd.saveAsObjectFile("output/path")
```
saveAsParquetFile(path)
- 功能：将 RDD 保存为 Parquet 文件（仅适用于 DataFrame 或 Dataset）。
- 用途：用于将数据保存为高效的列存储格式。
- 示例：
```
df = spark.createDataFrame([(1, "a"), (2, "b")], ["id", "value"])
df.write.parquet("output/path")
```

其他行动算子

foreach(func)
- 功能：对 RDD 中的每个元素应用函数 func，但不会返回结果。
- 用途：用于对 RDD 的每个元素执行操作，例如写入数据库。
- 示例：
```
rdd = sc.parallelize([1, 2, 3, 4, 5])
rdd.foreach(lambda x: print(x))
```
takeSample(withReplacement, num, seed)
- 功能：从 RDD 中随机抽取 num 个样本。
- 用途：用于获取 RDD 的随机样本。
- 示例：
```
rdd = sc.parallelize([1, 2, 3, 4, 5])
result = rdd.takeSample(False, 3, seed=42)
print(result)  # 输出：[2, 4, 5]
```

takeOrdered(n, key=None)

功能：返回 RDD 中的前 n 个元素，根据指定的排序函数排序。
用途：用于获取排序后的前 n 个元素。

示例：

rdd = sc.parallelize([("a", 1), ("b", 2), ("c", 3)])
result = rdd.takeOrdered(2, key=lambda x: x[1])
print(result)  # 输出：[('a', 1), ('b', 2)]

注意事项

性能优化：行动算子会触发作业的执行，因此在使用时需要注意性能优化。例如，避免频繁调用 collect() 或 take()，因为它们会将大量数据返回到驱动程序。
资源管理：某些行动算子（如 foreach）可能会对资源使用产生较大影响，尤其是在处理大规模数据时。

行动算子是 Spark 中用于触发实际计算的关键操作，合理使用它们可以高效地完成数据处理任务。

查看全文

http://www.xdnf.cn/news/4290.html

Java中对象集合转换的优雅实现【实体属性范围缩小为vo】：ListUtil.convert方法详解

车载诊断框架 --- 车载网关诊断通信与网关角色

WordPress_AdsProPlugin Sql注入漏洞复现（CVE-2024-13322）

Navicat访问mongo时密码转义字符问题

大模型主干

驱动开发系列57 - Linux Graphics QXL显卡驱动代码分析（四）显示区域更新

量子教育演示系统：交互式Bloch球面与Bell态可视化技术解析

【JEECG】BasicTable内嵌Table表格错位

强化学习+多模态从理论到实战

黑马点评day04(分布式锁-setnx)

Python 脚本打包成可执行的 .exe 文件

【四川省专升本计算机基础】第一章计算机基础知识（上）

Redis面试实战贴后面持续更新链接

拨叉831003加工工艺规程及夹具设计

学习黑客初看肉鸡

本地运行qwen3:30b-a3b速度测试

Python Cookbook-7.3 在 Pickling 的时候压缩

transformer➕lstm训练回归模型

行业赋能 | 电商平台API对接，订单信息自动抓取

密码工具类-生成随机密码校验密码强度是否满足要求

使用阿里AI的API接口实现图片内容提取功能

Jackson中的ObjectNode与JsonNode详解

探索Hello Robot开源移动操作机器人Stretch 3的技术亮点与市场定位

快速学会Linux的WEB服务

返回值到驱动程序的行动算子

将结果保存到外部存储的行动算子

其他行动算子

注意事项

相关文章：