当前位置: 首页 > java >正文

文件内容课堂总结

Apache Hive是Hadoop上的SQL引擎,Spark SQL编译时可以包含Hive支持,也可以不包含。包含Hive支持的Spark SQL可以支持Hive表访问、UDF(用户自定义函数)、Hive查询语言(HQL)等。需要强调的一点是,如果要在Spark SQL中包含Hive的库,并不需要事先安装Hive。一般来说,最好还是在编译Spark SQL时引入Hive支持,这样就可以使用这些特性了。
使用方式
Spark SQL连接Hive的方式分为内嵌Hive、外部Hive、Spark-SQL CLI、Spark beeline以及代码操作。
内嵌的Hive
如果使用Spark内嵌的Hive,无需任何配置即可直接使用。但在实际生产活动中几乎没有人使用内嵌Hive模式。
外部的Hive
在虚拟机中下载以下配置文件 
将 hive-site.xml 拷贝到Spark的 conf/ 目录下,并将连接地址中的 localhost 改为实际节点名称(如 node01 )。
将MySQL驱动(如 mysql-connector-java-5.1.49.jar )拷贝到Spark的 jars/ 目录下。
将 core-site.xml 和 hdfs-site.xml 拷贝到Spark的 conf/ 目录下。
重启Spark Shell以应用配置。
Spark beeline
Spark Thrift Server是基于HiveServer2实现的Thrift服务,旨在无缝兼容HiveServer2。连接Thrift Server的步骤如下: 
将 hive-site.xml 拷贝到Spark的 conf/ 目录下。
将MySQL驱动拷贝到Spark的 jars/ 目录下。
将 core-site.xml 和 hdfs-site.xml 拷贝到Spark的 conf/ 目录下。
启动Thrift Server。
使用beeline连接Thrift Server

http://www.xdnf.cn/news/965.html

相关文章:

  • Webpack 插件开发
  • MYDB仿MySQL手写数据库项目总结
  • UML 状态图:解锁电子图书馆管理系统的高效设计
  • 经典文献阅读之--KISS-Matcher(快速且稳健的点云注册)
  • C语言中联合体(Union)和结构体(Struct)的嵌套用法
  • VS Code + GitHub:高效开发工作流指南
  • 前端vue监听 -watch
  • 基于Redis实现高并发抢券系统的数据同步方案详解
  • Redis 有序集合(Sorted Set)
  • Spark,序列化反序列化
  • Linux高级IO
  • 【Python爬虫实战篇】--爬取豆瓣电影信息(静态网页)
  • RS232 串行通信:C++ 实现指南
  • 微信小程序 == 倒计时验证码组件 (countdown-verify)
  • 5V 1A充电标准的由来与技术演进——从USB诞生到智能手机时代的电力革命
  • I/O复用函数的使用——select
  • Linux系统管理与编程13:基于CentOS7.x的LAMP环境部署
  • BGP路由控制实验
  • Linux论坛安装
  • vite安装及使用
  • arkTs:UIAbility 组件的生命周期
  • Linux——系统安全及应用
  • 内网穿透实践:cpolar快速入门教程
  • 大模型学习笔记 day01 提示工程入门1.One-shot Few-shot提示学习法
  • 【mongodb】--下载
  • Flink介绍——实时计算核心论文之MillWheel论文总结
  • 探索大语言模型(LLM):ReAct、Function Calling与MCP——执行流程、优劣对比及应用场景
  • `useLayoutEffect` 和 `useEffect`区别与联系
  • Spring Boot 整合 JavaFX 核心知识点详解
  • C++ explicit