当前位置：首页 > news >正文

pyspark 初试

news 2025/6/14 9:31:32

1、安装jdk

2、安装spark

curl -o spark.tgz https://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-4.0.0/spark-4.0.0-bin-hadoop3.tgz
tar -xvf spark.tgz
mv spark-4.0.0-bin-hadoop3 /opt/spark

export SPARK_HOME=/opt/spark

export PATH=$PATH:SPARK_HOME/bin:$SPARK_HOME/sbin

source /etc/profile

spark-shell

#import findspark
#findspark.init()
from pyspark.sql import SparkSessionspark = SparkSession.builder.appName('test').getOrCreate()
#df =spark.read.text("name.txt")
#df.show(2)df =spark.read.csv("911.csv",header=True,inferSchema=True)
df.show(5)
df.head(5)
df.printSchema()
df.count()
df.describe().show()
df.sample(frction=0.05).show()row=df.head() #只获取一行
row.asDict() #转成字典
df.columns #打印列  column  只是列的描述
#查询
df.select(df['salary'],((df['salary'] * 0.1).alias('bonus'))).show()

http://www.xdnf.cn/news/997435.html

相关文章：

Spring 路由匹配机制详解：时间复杂度从 O(n) 降至 O(log n)

【Zephyr 系列 20】BLE 模块产线测试系统设计：快速校验、参数写入、自动识别的完整方案

Package vs. Directory (包 vs. 目录)

HarmonyOS运动开发：打造便捷的静态快捷菜单

以前在服务器启动了docker，现在不需要了，为了安全，去掉docker服务@Ubuntu

Linux 基本命令

GO后端开发内存管理及参考答案

没有宝塔面板的服务器上的WordPress网站打包下载到本地？

动态多目标进化算法：MOEA/D-SVR求解CEC2018（DF1-DF14），提供完整MATLAB代码

数字图像处理与OpenCV初探

机器学习 [白板推导]（五）[支持向量机]

uni-app隐藏返回按钮

VAS5081电动工具专用3-8节串联电池监控芯片奇力科技

深入理解常用依存关系标签

常见的几种排序算法

MPI + OpenMP 环境配置指南（Windows/Linux）

【C++】继承和派生

【靶场】upload-labs-文件上传漏洞闯关

Java面试题020：一文深入了解微服务之负载均衡Feign

docker-Dockerfile 配置

EMS企业微电网能效管理 + IBMS智能化集成系统：双擎驱动企业绿色低碳转型

快速搭建运行Django第一个应用—投票

JAVA_学习（IDEA

RT-Thread Studio 配置使用详细教程

linux基于内存实现jar文件搜索

Java 大数据机器学习模型在电商用户画像构建与精准营销中的应用

Modbus TCP转DeviceNet网关配置温控仪配置案例

76. 最小覆盖子串

ROS2双目相机标定与测距全流程详解：从原理到实践

聊一聊 Linux 上对函数进行 hook 的两种方式