当前位置：首页 > java >正文

文件内容课堂总结

java 2025/7/13 12:02:38

Apache Hive是Hadoop上的SQL引擎，Spark SQL编译时可以包含Hive支持，也可以不包含。包含Hive支持的Spark SQL可以支持Hive表访问、UDF（用户自定义函数）、Hive查询语言（HQL）等。需要强调的一点是，如果要在Spark SQL中包含Hive的库，并不需要事先安装Hive。一般来说，最好还是在编译Spark SQL时引入Hive支持，这样就可以使用这些特性了。
使用方式
Spark SQL连接Hive的方式分为内嵌Hive、外部Hive、Spark-SQL CLI、Spark beeline以及代码操作。
内嵌的Hive
如果使用Spark内嵌的Hive，无需任何配置即可直接使用。但在实际生产活动中几乎没有人使用内嵌Hive模式。
外部的Hive
在虚拟机中下载以下配置文件
将 hive-site.xml 拷贝到Spark的 conf/ 目录下，并将连接地址中的 localhost 改为实际节点名称（如 node01 ）。
将MySQL驱动（如 mysql-connector-java-5.1.49.jar ）拷贝到Spark的 jars/ 目录下。
将 core-site.xml 和 hdfs-site.xml 拷贝到Spark的 conf/ 目录下。
重启Spark Shell以应用配置。
Spark beeline
Spark Thrift Server是基于HiveServer2实现的Thrift服务，旨在无缝兼容HiveServer2。连接Thrift Server的步骤如下：
将 hive-site.xml 拷贝到Spark的 conf/ 目录下。
将MySQL驱动拷贝到Spark的 jars/ 目录下。
将 core-site.xml 和 hdfs-site.xml 拷贝到Spark的 conf/ 目录下。
启动Thrift Server。
使用beeline连接Thrift Server