当前位置: 首页 > ops >正文

Hive SQL常见操作

        Hive SQL 是基于 Hadoop 的数据仓库基础设施,用于提供数据查询和分析。下面介绍常用的 Hive SQL 语句,进行数据处理和分析。

        1. 数据库操作

           创建数据库 :CREATE DATABASE IF NOT EXISTS db_name;

           使用数据库:USE db_name;

           删除数据库:DROP DATABASE IF EXISTS db_name CASCADE;

        2.表操作

           创建表:

CREATE TABLE IF NOT EXISTS table_name (col1 datatype,col2 datatype,col3 datatype
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE;

        查看表结构:

DESCRIBE table_name;

        删除表:

        DROP TABLE IF EXISTS table_name; 

        3.数据导入

         从本地文件系统导入数据:

        LOAD DATA LOCAL INPATH '/path/to/file' INTO TABLE table_name;

        从 HDFS 导入数据:

        LOAD DATA INPATH '/path/in/hdfs' INTO TABLE table_name;

        4.数据查询

        基本查询:SELECT col1, col2 FROM table_name WHERE condition;

        分组查询:SELECT col1, COUNT(*) FROM table_name GROUP BY col1;

        排序查询:SELECT * FROM table_name ORDER BY col1 DESC;

        5.连接操作

        内连接:SELECT * FROM table1 JOIN table2 ON table1.id = table2.id;

        左连接:SELECT * FROM table1 LEFT JOIN table2 ON table1.id = table2.id;

        6.窗口函数

        计算累计和:

SELECT col1, SUM(col2) OVER (ORDER BY col1) AS running_total FROM table_name;

        分组排名:

SELECT col1, col2, RANK() OVER (PARTITION BY col1 ORDER BY col2 DESC) AS rank FROM table_name;

        7.分区表操作

        创建分区表:

CREATE TABLE IF NOT EXISTS table_name ( col1 datatype, col2 datatype ) PARTITIONED BY (dt string) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';

        添加分区:

ALTER TABLE table_name ADD PARTITION (dt='2023-01-01');

        8.插入数据

INSERT INTO TABLE table_name VALUES (val1, val2, val3);

        9、聚合函数

        计算平均值:

SELECT AVG(col1) FROM table_name;

        计算最大值:

SELECT MAX(col1) FROM table_name;

        10.其他常用操作

        创建视图:

CREATE VIEW view_name AS SELECT col1, col2 FROM table_name;

        设置Hive参数:

SET hive.execution.engine=tez;

        

http://www.xdnf.cn/news/12163.html

相关文章:

  • 人工智能--大型语言模型的存储
  • 窗口聚合窗口聚合
  • YOLOv11 | 注意力机制篇 | 混合局部通道注意力MLCA与C2PSA机制
  • 【photoshop】专色浓度和专色密度
  • Python[数据结构及算法 --- 栈]
  • Mobile App UI自动化locator
  • 【数据结构】树形结构--二叉树(二)
  • JavaSec-XSS
  • 深入理解Java多态性:原理、实现与应用实例
  • SpringBoot使用dynamic配置多数据源时使用@Transactional事务在非primary的数据源上遇到的问题
  • 基于LocalAI与cpolar技术协同的本地化AI模型部署与远程访问方案解析
  • 通过SAE实现企业应用的云上托管
  • CICD实战(一) -----Jenkins的下载与安装
  • 数据可视化大屏项目怎么做?捷码平台5步实施框架
  • 从零到一:Maven 快速入门教程
  • 从零开始的嵌入式学习day33
  • 肿瘤相关巨噬细胞(TAM)
  • 新成果:GaN基VCSEL动态物理模型开发
  • Arduino学习-按键灯
  • ubuntu系统文件误删(/lib/x86_64-linux-gnu/libc.so.6)修复方案 [成功解决]
  • 使用联邦多轨迹图神经网络(GNNs)结合稀缺数据预测婴儿脑连接|文献速递-深度学习医疗AI最新文献
  • MDK程序调试
  • 指针的使用——基本数据类型、数组、结构体
  • 持续热点!持久性有机污染物(POPs)研究思路
  • 【Go】3、Go语言进阶与依赖管理
  • 电商实践 基于token防止订单重复创建
  • SuperMap Iserver 重置密码
  • 电路图识图基础知识-自耦变压器降压启动电动机控制电路(十六)
  • ProfiNet 分布式 IO 在某污水处理厂的应用
  • vue:当前对象添加对应值