当前位置：首页 > news >正文

Zeppelin在spark环境导出dataframe

news 2025/8/25 23:36:18

1.Zeppelin无法直接访问本地路径

如果zeppelin无法直接访问本地路径，可先将dataframe写到s3，在通过读取s3路径下载文件

%pyspark
# 示例：用 PySpark 处理数据
df = spark.createDataFrame([(1, "Alice"), (2, "Bob")], ["id", "name"])
df.show()
df.coalesce(1).write \.format("csv") \.option("delimiter", "\t") \.option("header", "true") \.mode("overwrite") \.save("s3://mob-emr-test/dataplatform/zeppelin/")

2.Zeppelin可直接访问本地路径

需添加`file://` 前缀才能导出到本地

%pyspark
from pyspark.sql import SparkSession# 示例 DataFrame
df = spark.createDataFrame([(1, "Alice"), (2, "Bob")], ["id", "name"])# 保存到本地（使用 coalesce(1) 合并成一个文件）
df.coalesce(1).write \.format("csv") \.option("delimiter", "\t") \.option("header", "true") \.mode("overwrite") \.save("file:///c:/user/tmp/pyspark_output")  # 注意 `file://` 前缀

http://www.xdnf.cn/news/140185.html

相关文章：

【Linux庖丁解牛】—进程优先级！

C++入门小馆: 深入了解STLlist

sql server 开启cdc报事务正在执行

Qt ModbusSlave多线程实践总结

macOS 更新后找不到钥匙串访问工具的解决方案

手机打电话时电脑坐席同时收听对方说话并插入IVR预录声音片段

使用Python脚本在Mac上彻底清除Chrome浏览历史：开发实战与隐私保护指南

【2025最新面试操作系统八股】CPU利用率和load（负载）的区别，CPU利用率怎么算。

边界凸台建模与实例

电子学会—青少年软件编程 python一级等级考试真题—2025年03月

时间复杂度分析

Linux学习笔记之环境变量

住宅IP如何选择：长效VS短效，哪个更适合你的业务？

java排序算法-计数排序

OCR（Optical Character Recognition），光学字符识别

HashMap底层原理什么是哈希表？哈希冲突？如何处理哈希冲突？

kotlin与MVVM结合使用总结（三）

（Go Gin）基于Go的WEB开发框架，GO Gin是什么？怎么启动？本文给你答案

防火墙技术深度解析：从包过滤到云原生防火墙的部署与实战

【1】GD32 系统架构、内核、中断系统、存储器系统

IDEA编写flinkSQL（快速体验版本，--无需配置环境）

Vue3后代组件多祖先通讯设计方案

OpenCV 图形API（63）图像结构分析和形状描述符------计算图像中非零像素的边界框函数boundingRect()

52.[前端开发-JS实战框架应用]Day03-AJAX-插件开发-备课项目实战-Lodash

ubuntu20.04安装x11vnc远程桌面

AI数据分析的利器：解锁BI工具的无限潜力

android将打包文件的password和alias写入到本地文件

区块链如何达成共识：PoW/PoS/DPoS的原理、争议与适用场景全解

一些有关ffmpeg 使用（1）

LSPatch官方版：无Root Xposed框架，自由定制手机体验