当前位置: 首页 > news >正文

SparkSQL-数据提取和保存

需求说明

从给定的user.csv文件中,读入用户数据,过滤掉年龄<18岁的信息,然后把剩余的数据写入mysql数据库中。这里要先去准备mysql数据库。

思路分析

准备工作:

  1. 建立一个.csv文件,然后添加基本数据。
  2. 在mysql端建立一个数据表。
  3. 准备user.csv文件。
  4. 在mysql中创建数据表,特别注意字符编码的问题
  5. 编写spark代码:
    • 读入csv文件到 dataFrame
    • dataFrame做数据筛选
    • dataFrame做数据写入到mysql
核心步骤
1. 在mysql中创建数据表
  1. 打开finalshell,连接hadoop100
  2. 通过systemctl start mysqld 命令来启动服务
  3. 通过mysql -uroot -p 来登录mysql
  4. 通过create table来创建数据表
2. spark代码实现

从csv中读入数据到DataFrame。这里用到的方法是read.csv()

    val spark = SparkSession.builder().appName("SparkSQL03").master("local[*]").getOrCreate()

    // 读入data/user.csv文件的数据

    val df = spark.read

      .csv("data/user.csv").toDF("id","name","age")
  df.show()

参考代码


import org.apache.spark.sql.SparkSessionimport java.util.Propertiesobject SparkSQL03 {// 连接hadoop100上的mysql数据库,读出spark数据库中的person表中的内容def main(args: Array[String]): Unit = {val spark = SparkSession.builder().appName("SparkSQL03").master("local[*]").getOrCreate()// 读入data/user.csv文件的数据,插入到mysql数据库中val df = spark.read.csv("data/user.csv").toDF("id","name","age")// 创建一个properties对象,用来存储mysql连接信息val prop = new Properties()prop.setProperty("user","root")prop.setProperty("password","000000")// 过滤掉小于18岁的数据df.filter(df("age") > 18).write.mode("append") // 写入到数据库中.jdbc("jdbc:mysql://hadoop100:3306/spark","person",prop)}}

http://www.xdnf.cn/news/439453.html

相关文章:

  • 基于网关实现不同网段S7-1200 CPU的通信方法
  • vue2+ThinkPHP5实现简单大文件切片上传
  • 集成 ONLYOFFICE 与 AI 插件,为您的服务带来智能文档编辑器
  • 化工单元操作试验装置系列产品JG-SX211计算机过程控制板框过滤操作实训装置
  • 【vim】--- vim 插件说明 超详细持续更新中
  • Kafka进阶指南:从原理到实战
  • kafka connect 大概了解
  • 新能源汽车三电质量护盾:蓝光三维扫描技术显身手
  • 力扣每日一题之移动零
  • HTTP 连接复用机制详解
  • egpo进行train_egpo训练时,keyvalueError:“replay_sequence_length“
  • GoogleTest:GMock2 EXPECT_CALL
  • 数据结构基础排序算法
  • 【MySQL 基础篇】深入解析MySQL逻辑架构与查询执行流程
  • 【Ansys 2023 R2 Icepak】热管模型
  • 武汉科技大学人工智能与演化计算实验室许志伟课题组参加2025中国膜计算论坛
  • 【PostgreSQL数据分析实战:从数据清洗到可视化全流程】附录-B. 错误代码与解决方案
  • 论文阅读笔记——双流网络
  • 从阿里SDK学习请求-响应模式
  • 【Python】抽象基类ABC
  • [论文阅读]Formalizing and Benchmarking Prompt Injection Attacks and Defenses
  • 构建现代化WPF应用:数据驱动开发与高级特性解析
  • LeetCode 热题 100 230. 二叉搜索树中第 K 小的元素
  • 多模态论文笔记——NaViT
  • 2005-2022年各省绿色信贷水平测算数据(含原始数据+计算过程+计算结果)
  • 《AI大模型应知应会100篇》第61篇:FastAPI搭建大模型API服务
  • Vue3 区分开发环境与生产环境
  • PostgreSQL常用DML操作的锁类型归纳
  • 搜索二维矩阵 II
  • 【达梦数据库】超出全局hash join空间问题处理