当前位置: 首页 > news >正文

Mysql中 distinct 和 group by 哪个效率高?

结论

先说结论

  • 有索引的情况下:group by和distinct都能使用索引,效率相同

  • 无索引的情况下:distinct效率高于group by。原因是distinct 和 group by都会进行分组操作,但group by可能会进行排序,触发filesort,导致sql执行效率低下。

推荐使用 group by

distinct的使用

SELECT DISTINCT columns FROM table_name WHERE where_conditions;
mysql> select distinct age from student;
+------+
| age |
+------+
| 10 |
| 12 |
| 11 |
| NULL |
+------+
4 rows in set (0.01 sec)

注意:
如果列具有NULL值,并且对该列使用DISTINCT子句,MySQL将保留一个NULL值,并删除其它的NULL值,因为DISTINCT子句将所有NULL值视为相同的值

distinct多列去重

SELECT DISTINCT column1,column2 FROM table_name WHERE where_conditions;
mysql> select distinct sex,age from student;
+--------+------+
| sex | age |
+--------+------+
| male | 10 |
| female |   12 |
| male | 11 |
| male | NULL |
| female | 11 |
+--------+------+
5 rows in set (0.02 sec)

group by的使用

与 distinct类似

语法

SELECT columns FROM table_name WHERE where_conditions GROUP BY columns;
mysql> select age from student group by age;
+------+
| age |
+------+
| 10 |
| 12 |
| 11 |
| NULL |
+------+
4 rows in set (0.02 sec)

多列去重

mysql> select sex,age from student group by sex,age;
+--------+------+
| sex | age |
+--------+------+
| male | 10 |
| female |   12 |
| male | 11 |
| male | NULL |
| female | 11 |
+--------+------+
5 rows in set (0.03 sec)

区别

两者的语法区别在于

  • group by可以进行单列去重
  • group by的原理是先对结果进行分组排序,然后返回每组中的第一条数据。且是根据group by的后接字段进行去重的。
  • group by,在MYSQL8.0之前,GROUP Y默认会依据字段进行隐式排序。

隐式排序

8.0之前官方解释:https://dev.mysql.com/doc/refman/5.7/en/order-by-optimization.html

GROUP BY 默认隐式排序(指在 GROUP BY 列没有 ASC 或 DESC 指示符的情况下也会进行排序)。然而,GROUP BY进行显式或隐式排序已经过时(deprecated)了,要生成给定的排序顺序,请提供 ORDER BY 子句。

8.0官方解释:https://dev.mysql.com/doc/refman/8.0/en/order-by-optimization.html

从前(Mysql5.7版本之前),Group by会根据确定的条件进行隐式排序。在mysql 8.0中,已经移除了这个功能,所以不再需要通过添加order by null 来禁止隐式排序了,但是,查询结果可能与以前的 MySQL 版本不同。要生成给定顺序的结果,请按通过ORDER BY指定需要进行排序的字段。

总结

在语义相同,有索引的情况下:

group by和distinct都能使用索引,效率相同。因为group by和distinct近乎等价,distinct可以被看做是特殊的group by。

在语义相同,无索引的情况下:

distinct效率高于group by。原因是distinct 和 group by都会进行分组操作,但group by在Mysql8.0之前会进行隐式排序,导致触发filesort,sql执行效率低下。

但从Mysql8.0开始,Mysql就删除了隐式排序,所以,此时在语义相同,无索引的情况下,group by和distinct的执行效率也是近乎等价的。

推荐group by的原因
group by语义更为清晰
group by可对数据进行更为复杂的一些处理

http://www.xdnf.cn/news/814105.html

相关文章:

  • Softice入门
  • 有关在matlab中对信号采样及频谱的一些解释;复数的频谱,高分辨率谱,高密度谱的一些理解
  • 启动程序因找不到sqlite3.dll文件出现错误提示
  • typedef用法
  • html中引入视频的方法
  • Linux内存调试工具初探-MEMWATCH
  • GitHub和码云上,7个 h5 页面制作工具推荐
  • 11.20 《第二家园》上线内测
  • linux网络编程 copymemory,在VB6中用CopyMemory拷贝字符串的种种猫腻(一)
  • html爱心代码
  • SET QUOTED_IDENTIFIER OFF
  • 占座网失败原因分析
  • 程序员入门教程【非常详细】从零基础入门到精通,看完这一篇就够了 !
  • C#WebMVCLayui实战之《新闻管理系统》(适合初学者)
  • 服务器Hot Spare热备
  • 分页查询研究
  • 信息检索相关任务及数据集介绍
  • Android5 高级教程(三)
  • 英语词根词缀总结整合版
  • nginx配置使用笔记:三
  • 震撼!国产自研多环境开发软件 CEC-IDE 问世!遥遥领先!
  • C标准、C标准库、C++标准、C++标准库
  • 10个用于Android开发的有用的Kotlin库及示例
  • SMTP、ESMTP、POP3发送接收邮件
  • 启动应用程序出现mfc71u.dll找不到问题解决
  • PropertyGrid 用法,还没明白呢.
  • linux_i2c驱动架构(史上最全) davinc dm368 i2c驱动分析
  • 【数学建模】基于matlab模拟报童问题仿真
  • uefi和legacy的区别对比
  • C#中当程序的访问权限不足时,Directory.Exists和File.Exists方法不会抛出异常报错...