当前位置: 首页 > ai >正文

Kettle 远程mysql 表导入到 hadoop hive

kettle 远程mysql 表导入到 hadoop hive

(教学用 )

在这里插入图片描述

文章目录

  • kettle 远程mysql 表导入到 hadoop hive
  • 创建 对象 执行 SQL 语句 -mysql 导出 CSV格式
  • CSV 文件远程上传到 HDFS
    • 运行 SSH 命令
    • 远程登录 run SSH 并执行 hadoop fs -put
  • 建表和加载数据
  • 总结


创建 对象 执行 SQL 语句 -mysql 导出 CSV格式

在这里插入图片描述

SELECT * 
INTO OUTFILE '/home/mysql-files/sakila_actor9.csv' 
FIELDS TERMINATED BY ',' 
ENCLOSED BY '' 
LINES TERMINATED BY '\n'
FROM sakila.actor;

CSV 文件远程上传到 HDFS

运行 SSH 命令

在这里插入图片描述

远程登录 run SSH 并执行 hadoop fs -put

在这里插入图片描述
在这里插入图片描述

/opt/module/hadoop-3.3.0/bin/hadoop fs -put /home/mysql-files/sakila_actor9.csv /user/hive/warehouse/

建表和加载数据

在这里插入图片描述

CREATE EXTERNAL TABLE IF NOT EXISTS sakiladb.actor9 
(actor_id STRING COMMENT 'from deserializer',first_name STRING COMMENT 'from deserializer',last_name STRING COMMENT 'from deserializer',last_update STRING COMMENT 'from deserializer'
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','  -- 列分隔符
STORED AS TEXTFILE;LOAD DATA INPATH '/user/hive/warehouse/sakila_actor9.csv' INTO TABLE actor9;

总结

通过 Kettle (Pentaho Data Integration),我们能够轻松地将远程 MySQL 数据库中的数据导出到 CSV 文件,上传到 HDFS,并最终将数据导入 Hive。这样,我们可以利用 Hadoop 的强大计算能力来进行数据处理和分析。以下是整个过程的概览:

导出 MySQL 数据为 CSV 格式:使用 Table Input 和 Text File Output 步骤。

上传 CSV 文件到 HDFS:通过 SSH Connection 执行 hadoop fs -put 命令。

在 Hive 中创建表并加载数据:使用 CREATE TABLE 和 LOAD DATA 命令。

这个过程不仅适用于 MySQL 和 Hive,也可以根据需要适配其他数据源和目标系统。

http://www.xdnf.cn/news/9192.html

相关文章:

  • WPF【11_7】WPF实战-重构与美化(ViewModel的嵌套与分解、海量数据不要Join)
  • OpenCV CUDA模块图像处理------颜色空间处理之GPU 上对两张带有 Alpha 通道的图像进行合成操作函数alphaComp()
  • 【洛谷P9303题解】AC代码- [CCC 2023 J5] CCC Word Hunt
  • ubuntu22.04 安装 SecureCRT8.7.3
  • 没有经验能考OCP认证吗?
  • 视频逐帧提取图片的工具
  • 拆解汽车HMI设计:如何用3D可视化提升驾驶安全感?
  • RagFlow参数配置测试
  • 2025.5.27学习日记 linux三剑客 sed与正则表达式
  • 安卓开发用到的设计模式(3)行为型模式
  • Day31 -js应用 -实例:webpack jQuery的使用及其隐含的安全问题
  • C语言-指针
  • 目前可用随时更新,8种使用Claude4的方法!
  • 跨协议协同智造新实践:DeviceNet-EtherCAT网关驱动汽车焊接装配效能跃迁
  • word里面如何保存高清图片
  • idea 控制台 彩色打印日志
  • 主键与唯一键详解:概念、区别与面试要点
  • 【Bluedroid】init_stack_internal 函数全流程源码解析
  • Qt 多线程环境下的全局变量管理与密码安全
  • 电路图识图基础知识-主电路和辅助电路(七)
  • 华为FreeArc能和其他华为产品共用充电线吗?
  • C# 变量与常量完全指南:从基础到高级应用
  • 融智学“新五常”框架:五维方式的重构与协同
  • 十一、Samba文件共享服务
  • Nest全栈到失业(一):Nest基础知识扫盲
  • K8s入门(4)Kubernetes的技术演进
  • 2.1 Maven项目架构管理工具
  • Tomcat服务器
  • 误差反向传播法
  • 【Sqoop基础】Sqoop生态集成:与HDFS、Hive、HBase等组件的协同关系深度解析