Mysql 索引你了解多少？

会员服务 ·

Mysql 索引你了解多少？

2018 年 1 月 17 日 性能与架构 杜亦舒

前言

Mysql 的索引是我们常用的，但实际了解多少呢？下面通过几个案例小问题来测验下，后面会有答案及相关解释

测试问题

问题1

下面的索引适合这个查询吗？

CREATE INDEX tbl_idx ON tbl (date_column)

SELECT COUNT(*)
  FROM tbl
 WHERE EXTRACT(YEAR FROM date_column) = 2017

选项：

A 很适合
B 不适合

问题2

下面的索引适合这个查询吗？

CREATE INDEX tbl_idx ON tbl (a, date_column)

SELECT *
  FROM tbl
 WHERE a = 12
 ORDER BY date_column DESC
 LIMIT 1

选项：

A 很适合
B 不适合

问题3

下面的索引适合这两个查询吗？

CREATE INDEX tbl_idx ON tbl (a, b)

SELECT *
  FROM tbl
 WHERE a = 38
   AND b = 1
   
SELECT *
  FROM tbl
 WHERE b = 1

选项：

A 很适合
B 不适合

问题4

下面的索引适合这个查询吗？

CREATE INDEX tbl_idx ON tbl (text)

SELECT *
  FROM tbl
 WHERE text LIKE 'TJ%'

选项：

A 很适合
B 不适合

问题5

先看下这个索引和查询

CREATE INDEX tbl_idx ON tbl (a, date_column)

SELECT date_column, count(*)
  FROM tbl
 WHERE a = 38
 GROUP BY date_column

为了实现一个新的功能需求，会添加一个新的查询条件 b = 1

SELECT date_column, count(*)
  FROM tbl
 WHERE a = 38
   AND b = 1
 GROUP BY date_column

新的查询会如何影响性能？

选项：

A 两个查询的性能一致
B 无法判断，因为信息不足
C 第二个查询更慢了
D 第二个查询更快了

答案及解析

问题1

CREATE INDEX tbl_idx ON tbl (date_column)

SELECT COUNT(*)
  FROM tbl
 WHERE EXTRACT(YEAR FROM date_column) = 2017

答案 B 不适合

因为对索引列使用了函数，会使索引失效，使用下面的方式会更高效

SELECT COUNT(*)
  FROM tbl
 WHERE date_column >= DATE'2017-01-01'
   AND date_column <  DATE'2018-01-01'

问题2

CREATE INDEX tbl_idx ON tbl (a, date_column)

SELECT *
  FROM tbl
 WHERE a = 12
 ORDER BY date_column DESC
 LIMIT 1

答案 A 很适合

这个索引很好的支持了 where 和 order by

问题3

CREATE INDEX tbl_idx ON tbl (a, b)

SELECT *
  FROM tbl
 WHERE a = 38
   AND b = 1
   
SELECT *
  FROM tbl
 WHERE b = 1

答案 B 不适合

索引只覆盖了第一个查询，第二个查询没能高效的使用索引

改变一下索引即可

CREATE INDEX tbl_idx ON tbl (b, a)

问题4

CREATE INDEX tbl_idx ON tbl (text)

SELECT *
  FROM tbl
 WHERE text LIKE 'TJ%'

答案 A 适合

LIKE 中虽然使用了 %，但是在尾部，是可以应用索引的

问题5

CREATE INDEX tbl_idx ON tbl (a, date_column)

SELECT date_column, count(*)
  FROM tbl
 WHERE a = 38
 GROUP BY date_column
 
SELECT date_column, count(*)
  FROM tbl
 WHERE a = 38
   AND b = 1
 GROUP BY date_column

答案 C 第二个查询更慢了

第一个查询只需要对索引进行扫描，因为 select, where, group by中涉及的列都是索引中的，完全不需要访问实际的表，这种情况叫做索引覆盖，性能是极好的

而第二个查询就需要访问实际的表，根据 b = 1这个条件进行过滤

小结

上面是5个关于索引使用的小问题，比较简单，但也常被忽略，希望能对大家有点帮助

点击下面的 "阅读原文" 查看文章列表

登录查看更多

相关内容

列

关注 0

干净的数据：数据清洗入门与实践，204页pdf

专知会员服务

164+阅读 · 2020年5月14日

【2020新书】MySQL 8查询性能调优，974页pdf，一种提高执行速度的系统方法

专知会员服务

70+阅读 · 2020年3月25日

【2020新书】如何构建数据团队？:设计集成的技能、需求和解决方案，257页pdf

专知会员服务

115+阅读 · 2020年3月11日

算法与数据结构Python，369页pdf

专知会员服务

166+阅读 · 2020年3月4日

【2020新书】Python大数据处理，Mastering Large Datasets with Python，311页pdf

专知会员服务

197+阅读 · 2020年2月1日

用 Python 开发 Excel 宏脚本的神器

私募工场

26+阅读 · 2019年9月8日

python数据分析师面试题选

数据挖掘入门与实战

6+阅读 · 2017年11月21日

python pandas 数据处理

Python技术博文

4+阅读 · 2017年8月30日

漫画：什么是Bitmap算法？

程序猿

3+阅读 · 2017年8月19日

干货 | 详解scikit-learn中随机森林(RF)和梯度提升决策树(GBDT)的参数调优

机器学习算法与Python学习

6+阅读 · 2017年7月26日

Theme-weighted Ranking of Keywords from Text Documents using Phrase Embeddings

Arxiv

5+阅读 · 2018年7月16日

W-net: Bridged U-net for 2D Medical Image Segmentation

Arxiv

20+阅读 · 2018年7月12日

Convolutional 2D Knowledge Graph Embeddings

Arxiv

4+阅读 · 2018年7月4日

Neural-Brane: Neural Bayesian Personalized Ranking for Attributed Network Embedding

Arxiv

4+阅读 · 2018年4月23日

Differential Attention for Visual Question Answering

Arxiv

5+阅读 · 2018年4月3日

VIP会员