当前位置：首页 > ops >正文

spark分区器

ops 2025/8/26 21:02:22

import org.apache.spark.{SparkConf, SparkContext}object Partition {// RDD: 弹性分布式数据集，特点：不可变的，可并行计算的。// 1. 分区和分区器// hash分区器 = hash(数据)%分区数 ===> 编号// 2. 自定义分区器def main(args: Array[String]): Unit = {// 创建SparkContextval conf = new SparkConf().setAppName("Partition").setMaster("local[*]")val sc = new SparkContext(conf)// 1. 从集合中创建val rdd = sc.parallelize(List(1,2,3,4,5,6,7,8,9,10),3)// 查看分分区数: 默认为当前机器的CPU核数println(rdd.partitions.length,rdd.getNumPartitions)// 将 RDD 保存为文本文件，保存路径为“output”rdd.saveAsTextFile("output1")// 2. 从外部存储系统（如HDFS、HBase、共性文件系统）中创建/* val rdd1 = sc.textFile("hdfs://hadoop100:8020/wcinput/word2.txt")val rdd2 = sc.textFile("hdfs://hadoop100:8020/apache-hive-2.3.4-bin.tar.gz")// 查看分分区数println(rdd1.partitions.length,rdd1.getNumPartitions)println(rdd2.partitions.length,rdd2.getNumPartitions)*/}
}

http://www.xdnf.cn/news/6025.html

相关文章：

《Python星球日记》第68天：BERT 与预训练模型

EasyRTC嵌入式音视频通信SDK打造带屏IPC全场景实时通信解决方案

GMT之Bash语言使用

idea挂掉，会导致进程不结束，切换profile环境，导致token认证不通过

Git的安装和配置（idea中配置Git）

Spring Boot 自动装配技术方案书

【PostgreSQL数据分析实战：从数据清洗到可视化全流程】附录-C. 常用SQL脚本模板

LLaMA-Factory 微调 Qwen2-7B-Instruct

数据的模型分析及可视化

docker-compose——安装redis

什么是物联网 IoT 平台？

三轴云台之控制算法协同技术篇

【教程】Docker更换存储位置

微信小程序智能商城系统(uniapp+Springboot后端+vue管理端)

如何下载 MySQL 驱动 JAR 包

详细说说Spring的IOC机制

Seata源码—1.Seata分布式事务的模式简介

Kotlin 协程实战：实现异步值加载委托，对值进行异步懒初始化

Flutter 与HarmonyOS Next 混合渲染开发实践：以 fluttertpc_scan 三方库为例

进程信号的学习

游戏盾SDK的防护介绍

NC65开发环境（eclipse启动）在企业报表中的报表数据中心里计算某张报表时，一直计算不出数据的解决办法。

数字高程模型（DEM）公开数据集介绍与下载指南

DataX从Mysql导数据到Hive分区表案例

html5+css3实现傅里叶变换的动态展示效果(仅供参考)

DeepSeek 赋能 VR/AR：开启智能交互新纪元

密西根大学新作——LightEMMA：自动驾驶中轻量级端到端多模态模型

Python面向对象编程精解：从两大编程范式到类与对象实战

16S18S_分析步骤（2）

C++.神经网络与深度学习（赶工版）（会二次修改）