当前位置: 首页 > news >正文

pyspark 初试

1、安装jdk

2、安装spark  

curl -o spark.tgz https://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-4.0.0/spark-4.0.0-bin-hadoop3.tgz
tar -xvf spark.tgz
mv spark-4.0.0-bin-hadoop3 /opt/spark

export SPARK_HOME=/opt/spark

export PATH=$PATH:SPARK_HOME/bin:$SPARK_HOME/sbin

source /etc/profile

spark-shell

#import findspark
#findspark.init()
from pyspark.sql import SparkSessionspark = SparkSession.builder.appName('test').getOrCreate()
#df =spark.read.text("name.txt")
#df.show(2)df =spark.read.csv("911.csv",header=True,inferSchema=True)
df.show(5)
df.head(5)
df.printSchema()
df.count()
df.describe().show()
df.sample(frction=0.05).show()row=df.head() #只获取一行
row.asDict() #转成字典
df.columns #打印列  column  只是列的描述
#查询
df.select(df['salary'],((df['salary'] * 0.1).alias('bonus'))).show()

http://www.xdnf.cn/news/997435.html

相关文章:

  • Spring 路由匹配机制详解:时间复杂度从 O(n) 降至 O(log n)
  • 【Zephyr 系列 20】BLE 模块产线测试系统设计:快速校验、参数写入、自动识别的完整方案
  • Package vs. Directory (包 vs. 目录)
  • HarmonyOS运动开发:打造便捷的静态快捷菜单
  • 以前在服务器启动了docker,现在不需要了,为了安全,去掉docker服务@Ubuntu
  • Linux 基本命令
  • GO后端开发内存管理及参考答案
  • 没有宝塔面板的服务器上的WordPress网站打包下载到本地?
  • 动态多目标进化算法:MOEA/D-SVR求解CEC2018(DF1-DF14),提供完整MATLAB代码
  • 数字图像处理与OpenCV初探
  • 机器学习 [白板推导](五)[支持向量机]
  • uni-app隐藏返回按钮
  • VAS5081电动工具专用3-8节串联电池监控芯片奇力科技
  • 深入理解常用依存关系标签
  • 常见的几种排序算法
  • ​​MPI + OpenMP 环境配置指南(Windows/Linux)​
  • 【C++】继承和派生
  • 【靶场】upload-labs-文件上传漏洞闯关
  • Java面试题020:一文深入了解微服务之负载均衡Feign
  • docker-Dockerfile 配置
  • EMS企业微电网能效管理 + IBMS智能化集成系统:双擎驱动企业绿色低碳转型
  • 快速搭建运行Django第一个应用—投票
  • JAVA_学习(IDEA
  • RT-Thread Studio 配置使用详细教程
  • linux基于内存实现jar文件搜索
  • Java 大数据机器学习模型在电商用户画像构建与精准营销中的应用
  • Modbus TCP转DeviceNet网关配置温控仪配置案例
  • 76. 最小覆盖子串
  • ROS2双目相机标定与测距全流程详解:从原理到实践
  • 聊一聊 Linux 上对函数进行 hook 的两种方式