当前位置: 首页 > web >正文

Python与Spark

1.什么是Spark

Spark用于对海量数据进行分布式计算

pyspark是利用Python语言完成Spark任务的第三方包

2.安装pyspark

打开命令行,输入【pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pyspark】

3.pyspark入门

4. pyspark输入数据

(1)输入数据容器

查看rdd中的内容,用collect()方法

(2)输入文件

5.pyspark处理数据

(1)map成员方法(算子)

map方法用于逐个处理rdd中的数据

(2)flatmap算子

在map的基础上,多了解除嵌套的功能

(3)reduceByKey算子

对二元元组按照key分组聚合后 ,对每个组内的元素两两进行处理

 (4)filter算子

过滤元素,只保留满足条件的

(5)distinct算子

对rdd中的数据去重 

(6)sortBy算子

按照什么样的规则进行排序 

6. pyspark输出数据为Python对象

(1)collect算子

(2)reduce算子

(3)take算子

(4)count算子 

 7.pyspark输出数据到文件中

saveAsTextFile算子

http://www.xdnf.cn/news/16716.html

相关文章:

  • 【深度学习】独热编码(One-Hot Encoding)
  • C++_红黑树树
  • CMake 完全实战指南:从入门到精通
  • 使用redis 作为消息队列时, 如何保证消息的可靠性
  • Leetcode 08 java
  • 鸿蒙Harmony-自定义List组件,解决List组件手势滑动点击卡住问题
  • Apache Ignite 的分布式队列(IgniteQueue)和分布式集合(IgniteSet)的介绍
  • 【dropdown组件填坑指南】鼠标从触发元素到下拉框中间间隙时,下拉框消失,怎么解决?
  • 0基礎網站開發技術教學(一) --(前端篇)--
  • 《Java 程序设计》第 9 章 - 内部类、枚举和注解
  • Java07--面向对象
  • 自动调优 vLLM 服务器参数(实战指南)
  • 如何用USRP捕获手机信号波形(下)协议分析
  • 怎么理解使用MQ解决分布式事务 -- 以kafka为例
  • 小白学OpenCV系列1-图像处理基本操作
  • 机器学习-十大算法之一线性回归算法
  • gTest测试框架的安装与配置
  • Qt 并行计算框架与应用
  • 项目优化中对象的隐式共享
  • 从单机架构到分布式:Redis为何成为架构升级的关键一环?
  • 【开源项目】轻量加速利器 HubProxy 自建 Docker、GitHub 下载加速服务
  • Less Less基础
  • Docker学习相关视频笔记(二)
  • 负载均衡、算法/策略
  • ROUGE-WE:词向量化革新的文本生成评估框架
  • Java 9 新特性解析
  • 考古学家 - 华为OD统一考试(JavaScript 题解)
  • 算法第29天|动态规划dp2:不同路径、不同路径Ⅱ、整数拆分、不同的二叉搜索树
  • uipath数据写入excel的坑
  • Python 程序设计讲义(25):循环结构——嵌套循环