当前位置: 首页 > ops >正文

spark分区器

import org.apache.spark.{SparkConf, SparkContext}object Partition {// RDD: 弹性分布式数据集,特点:不可变的,可并行计算的。// 1. 分区和分区器// hash分区器 = hash(数据)%分区数 ===> 编号// 2. 自定义分区器def main(args: Array[String]): Unit = {// 创建SparkContextval conf = new SparkConf().setAppName("Partition").setMaster("local[*]")val sc = new SparkContext(conf)// 1. 从集合中创建val rdd = sc.parallelize(List(1,2,3,4,5,6,7,8,9,10),3)// 查看分分区数: 默认为当前机器的CPU核数println(rdd.partitions.length,rdd.getNumPartitions)// 将 RDD 保存为文本文件,保存路径为“output”rdd.saveAsTextFile("output1")// 2. 从外部存储系统(如HDFS、HBase、共性文件系统)中创建/* val rdd1 = sc.textFile("hdfs://hadoop100:8020/wcinput/word2.txt")val rdd2 = sc.textFile("hdfs://hadoop100:8020/apache-hive-2.3.4-bin.tar.gz")// 查看分分区数println(rdd1.partitions.length,rdd1.getNumPartitions)println(rdd2.partitions.length,rdd2.getNumPartitions)*/}
}
http://www.xdnf.cn/news/6025.html

相关文章:

  • 《Python星球日记》 第68天:BERT 与预训练模型
  • EasyRTC嵌入式音视频通信SDK打造带屏IPC全场景实时通信解决方案
  • GMT之Bash语言使用
  • idea挂掉,会导致进程不结束,切换profile环境,导致token认证不通过
  • Git的安装和配置(idea中配置Git)
  • Spring Boot 自动装配技术方案书
  • 【PostgreSQL数据分析实战:从数据清洗到可视化全流程】附录-C. 常用SQL脚本模板
  • LLaMA-Factory 微调 Qwen2-7B-Instruct
  • 数据的模型分析及可视化
  • docker-compose——安装redis
  • 什么是物联网 IoT 平台?
  • 三轴云台之控制算法协同技术篇
  • 【教程】Docker更换存储位置
  • 微信小程序智能商城系统(uniapp+Springboot后端+vue管理端)
  • 如何下载 MySQL 驱动 JAR 包
  • 详细说说Spring的IOC机制
  • Seata源码—1.Seata分布式事务的模式简介
  • Kotlin 协程实战:实现异步值加载委托,对值进行异步懒初始化
  • Flutter 与HarmonyOS Next 混合渲染开发实践:以 fluttertpc_scan 三方库为例
  • 进程信号的学习
  • 游戏盾SDK的防护介绍
  • NC65开发环境(eclipse启动)在企业报表中的报表数据中心里计算某张报表时,一直计算不出数据的解决办法。
  • 数字高程模型(DEM)公开数据集介绍与下载指南
  • DataX从Mysql导数据到Hive分区表案例
  • html5+css3实现傅里叶变换的动态展示效果(仅供参考)
  • DeepSeek 赋能 VR/AR:开启智能交互新纪元
  • 密西根大学新作——LightEMMA:自动驾驶中轻量级端到端多模态模型
  • Python面向对象编程精解:从两大编程范式到类与对象实战
  • 16S18S_分析步骤(2)
  • C++.神经网络与深度学习(赶工版)(会二次修改)