RDD 算子 - 转换算子 2
RDD(Resilient Distributed Datasets,弹性分布式数据集 )是 Spark 中用于处理大规模数据的核心数据结构。转换算子用于对 RDD 进行转换,生成新的 RDD。常见的 RDD 转换算子除了基础的 map、filter 外,还有:
flatMap:与 map 类似,但是对每个输入元素可以生成多个输出元素(将结果扁平化)。比如输入 RDD 是 [["a", "b"], ["c", "d"]] ,使用 flatMap 处理后会得到 ["a", "b", "c", "d"] 。
union:将两个 RDD 的元素合并在一起,生成一个新的 RDD,包含两个 RDD 中的所有元素。例如 RDD1 = [1, 2, 3] ,RDD2 = [3, 4, 5] ,RDD1.union (RDD2) 得到 [1, 2, 3, 3, 4, 5] 。
intersection:返回两个 RDD 的交集元素组成的新 RDD 。比如 RDD1 = [1, 2, 3] ,RDD2 = [3, 4, 5] ,RDD1.intersection (RDD2) 得到 [3] 。