当前位置: 首页 > news >正文

SQL开窗函数

文章目录

  • 开窗函数
    • 简介
    • 为什么使用开窗函数
    • 使用开窗函数的经典场景
      • 场景1:排名
      • 场景2:累计计算
      • 场景3:移动平均/移动总计
      • 场景4:比较相邻行
      • 场景5:计算占比
      • 总结

开窗函数

简介

SQL的开窗函数是MYSQL在8版本后提供用来简化SQL语句的编写的一个方法
标志词是over()
它与我们的聚合函数类似
但是又不一致
聚合函数是在group by会分成几组,会压缩我们原本的数据信息

在这里插入图片描述
而我们的聚合函数可以直接在我们原本的数据行上添加一列我们想知道的信息

select *,avg(sal) over(partition by job) from employee;

avg(sal) over(partition by job) 前一部分是运算的开窗函数,后一部分是进行数据处理的分区
在这里插入图片描述
这个语句是可以使用我们的 聚合函数+子查询进行复现的

SELECT e.*, e1.avg_sal AS "avg(sal) over(partition by job)"
FROM employee e
JOIN (SELECT job, AVG(sal) AS avg_sal FROM employee GROUP BY job
) e1 ON e.job = e1.job;

那下面这条语句就很难简单的去实现了
累加值就是这个日期前的累加在一起
像这种以明细的方式进行累加是我们开窗函数的典型应用场景
!!!

sum(sal) over (partition by dname order by hiredate desc)
解释一下:就是按照dname进行分区嘛,然后分区里面根据hiredate 倒序排序
重要的是sum(sal)只会计算你当前和前面的累加数据,相当于是一个过程
而不是直接将所有工资一sum()就赋值给每个数据了

在这里插入图片描述

为什么使用开窗函数

在这里插入图片描述

使用开窗函数的经典场景

场景1:排名

需求:对员工按工资进行排名,展示不同排名函数的区别。
假设员工表employees只有三个字段:id(员工ID)、name(姓名)、salary(工资)。数据如下:

idnamesalary
1Alice8000
2Bob7000
3Carol9000
4David7000
5Eve8500
SELECT id, name, salary,ROW_NUMBER() OVER (ORDER BY salary DESC) AS row_number_rank,RANK() OVER (ORDER BY salary DESC) AS rank,DENSE_RANK() OVER (ORDER BY salary DESC) AS dense_rank
FROM employees;

结果

idnamesalaryrow_number_rankrankdense_rank
3Carol9000111
5Eve8500222
1Alice8000333
2Bob7000444
4David7000544
  • 注意:这里Bob和David工资相同,但row_number强制给了不同序号
  • 因为Bob和David并列第4名(rank=4),所以下一个rank跳到了6(如果有下一个),但dense_rank接着是5

排名函数区别

  • ROW_NUMBER():无论值是否相同,都按顺序分配唯一的连续整数(1,2,3,…)。
  • RANK():相同值的行排名相同,但会跳过并列占用的名次。例如:1,2,2,4(两个并列第二后,下一个是第四名)。
  • DENSE_RANK():相同值的行排名相同,且排名数字连续。例如:1,2,2,3(两个并列第二后,下一个是第三名)。

场景2:累计计算

需求:计算每个月的销售额累计值。
假设销售表sales只有两个字段:month(月份,格式为’YYYY-MM’)、amount(销售额)。数据如下:

monthamount
2023-011000
2023-021500
2023-031200
SELECT month, amount,SUM(amount) OVER (ORDER BY month) AS cumulative_amount
FROM sales;

结果

monthamountcumulative_amount说明
2023-0110001000
2023-0215002500(1000+1500)
2023-0312003700(1000+1500+1200)

说明:默认的窗口范围是从分区第一行到当前行(ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW),所以是累计计算。

场景3:移动平均/移动总计

需求:计算3个月的移动平均销售额和移动总计。
使用与场景2相同的销售表。

SELECT month, amount,AVG(amount) OVER (ORDER BY monthROWS BETWEEN 2 PRECEDING AND CURRENT ROW) AS moving_avg,SUM(amount) OVER (ORDER BY monthROWS BETWEEN 2 PRECEDING AND CURRENT ROW) AS moving_sum
FROM sales;

结果

monthamountmoving_avgmoving_sum说明
2023-0110001000.00001000– 只有当前行
2023-0215001250.00002500– 前1行+当前行(1000+1500)
2023-0312001233.33333700– 前2行+当前行(1000+1500+1200)
2023-0418001500.00004500– (1500+1200+1800) 注意:这里假设有4月数据

说明:通过ROWS BETWEEN 2 PRECEDING AND CURRENT ROW定义了窗口为当前行及其前两行(共3行)。移动平均和移动总计都是基于这个窗口计算。

场景4:比较相邻行

需求:计算本月销售额相比上月的增长额和增长率。
使用与场景2相同的销售表。

SELECT month, amount,LAG(amount) OVER (ORDER BY month) AS prev_amount,amount - LAG(amount) OVER (ORDER BY month) AS growth_amount,ROUND((amount - LAG(amount) OVER (ORDER BY month)) / LAG(amount) OVER (ORDER BY month) * 100, 2) AS growth_rate_percent
FROM sales;

结果

monthamountprev_amountgrowth_amountgrowth_rate_percent说明
2023-011000NULLNULLNULL
2023-021500100050050.00– (1500-1000)/1000*100 = 50%
2023-0312001500-300-20.00– (1200-1500)/1500*100 = -20%

说明

  • LAG(column, n):获取当前行向前数第n行的值(默认为1,即上一行)。
  • 第一行没有上一行,所以返回NULL。
  • 通过当前值减去上一行的值,可以得到增长额;再除以上一行的值,可以得到增长率。

场景5:计算占比

需求:计算每个员工工资占部门总工资的比例。
假设员工表employees有字段:id(员工ID)、name(姓名)、dept(部门)、salary(工资)。数据如下:

idnamedeptsalary
1AliceIT8000
2BobIT7000
3CarolHR9000
SELECT id, name, dept, salary,salary / SUM(salary) OVER (PARTITION BY dept) * 100 AS dept_salary_percent
FROM employees;

结果

idnamedeptsalarydept_salary_percent说明
1AliceIT800053.33– 8000/(8000+7000)=53.33%
2BobIT700046.67– 7000/(8000+7000)=46.67%
3CarolHR9000100.00– 9000/9000=100%

说明:在窗口函数中,SUM(salary) OVER (PARTITION BY dept)计算每个部门的总工资。然后每个员工的工资除以部门总工资,得到该员工工资在部门中的占比。

总结

以上5个场景覆盖了开窗函数最常用的应用,每个例子都尽量精简字段,并详细解释了关键细节。开窗函数的核心在于通过OVER子句定义窗口(分区和排序),结合不同的窗口函数(如ROW_NUMBER, RANK, DENSE_RANK, SUM, AVG, LAG等)实现复杂的分析计算。

http://www.xdnf.cn/news/1105075.html

相关文章:

  • Guava LoadingCache
  • LLM场景下的强化学习【GRPO】
  • 在线重装 Proxmox VE
  • DeepSeek模型分析及其在AI辅助蛋白质工程中的应用-文献精读148
  • C语言文件读写操作详解:fgetc与feof函数的应用
  • RestTemplate动态修改请求的url
  • C++前缀和与差分的深度探索
  • 信号量机制
  • Python-正则表达式-信息提取-滑动窗口-数据分发-文件加载及分析器-浏览器分析-学习笔记
  • Windows GNU Radio避坑
  • 【牛客刷题】dd爱科学1.0
  • 计算机网络第三章(6)——数据链路层《网桥交换机》
  • PHT-CAD 笔记
  • 深入MyBatis:CRUD操作与高级查询实战
  • Visual Studio Code 的 settings.json 配置指南
  • K8s Service 终极解析:源码、性能、故障排查全攻略
  • 深入解析 TCP 连接状态与进程挂起、恢复与关闭
  • ROS1学习第三弹
  • Web安全 - 基于 SM2/SM4 的前后端国产加解密方案详解
  • Web安全-Linux基础-01-初识Linux
  • 牛客周赛 Round 99
  • 每日算法刷题Day45 7.11:leetcode前缀和3道题,用时1h40min
  • 浏览器重绘与重排
  • LDO选型
  • # Day31 Java方法02 方法的定义和调用
  • netdxf—— CAD c#二次开发之(netDxf 处理 DXF 文件)
  • Apache Cloudberry 向量化实践(三)重塑表达式构建路径:Gandiva 优化实战
  • Java外包怎么选?这几点不注意,项目可能血亏!
  • CompletableFuture 详解
  • ICCV2025接收论文速览(1)