优化查询语句的建议具体是什么

114次阅读

共计 3429 个字符，预计需要花费 9 分钟才能阅读完成。

本篇文章为大家展示了优化查询语句的建议具体是什么，内容简明扼要并且容易理解，绝对能使你眼前一亮，通过这篇文章的详细介绍希望你能有所收获。

我要做两件事情，第一，指出为什么这个清单很糟糕，第二，列出我的清单，希望我的比较好些。继续看吧，无畏的读者们!
为什么那个清单很糟糕
1. 他的力气没使对地方
我们要遵循的一个准则就是如果你要优化代码时，应该先找出瓶颈在哪。然而 Silverton 先生的力气没有用对地方。我认为 60% 的优化是基于清楚理解 SQL 和数据库基础的。你需要知道 join 和子查询的区别，列索引，以及如何将数据规范化等等。另外的 35% 的优化是需要清楚数据库选择时的性能表现，例如 COUNT (*) 可能很快也可能很慢，要看你选用什么数据库引擎。还有一些其他要考虑的因素，例如数据库在什么时候不用缓存，什么时候存在硬盘上而不存在内存中，什么时候数据库创建临时表等等。剩下的 5% 就很少会有人碰到了，但 Silverton 先生恰好在这上面花了大量的时间。我从来就没用过 SQL_SAMLL_RESULT。
2. 很好的问题，但是很糟糕的解决方法
Silverton 先生提出了一些很好的问题。MySQL 针对长度可变的列如 TEXT 或 BLOB，将会使用动态行格式(dynamic row format)，这意味着排序将在硬盘上进行。我们的方法不是要回避这些数据类型，而是将这些数据类型从原来的表中分离开，放入另外一个表中。下面的 schema 可以说明这个想法：

双击代码全选
11CREATE TABLE posts ( id int UNSIGNED NOT NULL AUTO_INCREMENT, author_id int UNSIGNED NOT NULL, created timestamp NOT NULL, PRIMARY KEY(id)); CREATE TABLE posts_data ( post_id int UNSIGNED NOT NULL. body text, PRIMARY KEY(post_id));

3. 有点匪夷所思 hellip; hellip;
他的许多建议都是让人非常吃惊的，譬如“移除不必要的括号”。你这样写 SELECT * FROM posts WHERE (author_id = 5 AND published = 1)，还是这样写 SELECT * FROM posts WHERE author_id = 5 AND published = 1，都不重要。任何比较好的 DBMS 都会自动进行识别做出处理。这种细节就好像 C 语言中是 i ++ 快些还是 ++ i 快些。真的，如果你把精力都花在这上面了，那就不用写代码了。

我的列表
看看我的列表是不是更好吧。我先从最普遍的开始。
1. 建立基准，建立基准，建立基准!
如果需要做决定的话，我们需要数据说话。什么样的查询是最糟的? 瓶颈在哪? 我什么情况下会写出糟糕的查询? 基准测试可以让你模拟高压情况，然后借助性能测评工具，可以让你发现数据库配置中的错误。这样的工具有 supersmack, ab, SysBench。这些工具可以直接测试你的数据库(譬如 supersmack)，或者模拟网络流量(譬如 ab)。
2. 性能测试，性能测试，性能测试!
那么，当你能够建立一些高压情况之后，你需要找出配置中的错误。这就是性能测评工具可以帮你做的了。它可以帮你发现配置中的瓶颈，不论是在内存中，CPU 中，网络中，硬盘 I /O，或者是以上皆有。
你要做的第一件事就是开启慢查询日志(slow query log)，装上 mtop。这样你就能获取那些恶意的入侵者的信息了。有需要运行 10 秒的查询语句正在破坏你的应用程序吗? 这些家伙会展示给你看他的查询语句是怎么写的。
在你发现那些很慢的查询语句后，你需要用 MySQL 自带的工具，如 EXPLAIN，SHOW STATUS，SHOW PROCESSLIST。它们会告诉你资源都消耗在哪了，查询语句的缺陷在哪，譬如一个有三次 join 子查询的查询语句是否在内存中进行排序，还是在硬盘上进行。当然你也应该使用测评工具如 top，procinfo，vmstat 等等获取更多系统性能信息。
3. 减小你的 schema
在你开始写查询语句之前，你需要设计 schema。记住将一个表装入内存所需要的空间大概是行数 * 一行的大小。除非你觉得世界上的每个人都会在你的网站注册 2 兆 8000 亿次的话，否则你不需要采用 BITINT 作为你的 user_id。同样的，如果一个文本列是固定大小的话(譬如 US 邮编，通常是”XXXXX-XXXX”的形式)，采用 VARCHAR 的话会给每行增加多余的字节。
有些人对数据库规范化不以为意，他们说这样会形成相当复杂的 schema。然而适当的规范化会减少化冗余数据。(适当的规范化) 就意味着牺牲少许性能，换取整体上更少的 footprint，这种性能换取内存在计算机科学中是很常见的。最好的方法是 IMO，就是开始先规范化，之后如果性能需要的话，再反规范化。你的数据库将会更逻辑化，你也不用过早的进行优化。(译者注，这一段我不是很理解，可能翻译错了，欢迎纠正。)
4. 拆分你的表
通常有些表只有一些列你是经常需要更新的。例如对于一个博客，你需要在许多不同地方显示标题(如最近的文章列表)，只在某个特定页显示概要或者全文。水平垂直拆分是很有帮助的：

双击代码全选
CREATE TABLE posts (id int UNSIGNED NOT NULL AUTO_INCREMENT, author_id int UNSIGNED NOT NULL, title varchar(128), created timestamp NOT NULL, PRIMARY KEY(id)); CREATE TABLE posts_data (post_id int UNSIGNED NOT NULL, teaser text, body text, PRIMARY KEY(post_id));

上面的 schema 是对读数据进行的优化。经常要访问的数据存在一个表中，那些不经常访问的数据放在另一个。被拆分后，不经常访问的数据占据更少的内存。你也可以优化写数据，经常更新的数据放在一个表，不经常更新的放在另一个表。这可以使缓存更高效，因为 MySQL 不需要让没有更新过的数据移出缓存。
5. 不要过度使用 artificial primary key
artificial primary key 非常棒，因为他们使得 schema 更少的变化。如果我们将地理信息存在以美国邮编为基础的表中，如果邮编系统突然改变了，那我们就会有大麻烦了。另一方面，采用 natural key 有时候也很棒，譬如我们需要 join 多对多的关系表时，我们不应该这样：

双击代码全选
CREATE TABLE posts_tags (relation_id int UNSIGNED NOT NULL AUTO_INCREMENT,post_id int UNSIGNED NOT NULL,tag_id int UNSIGNED NOT NULL,PRIMARY KEY(relation_id),UNIQUE INDEX(post_id, tag_id));

artificial key 完全是多余的，而且 post-tag 关系的数量将会受到整形数据的系统最大值的限制。

双击代码全选
CREATE TABLE posts_tags (post_id int UNSIGNED NOT NULL,tag_id int UNSIGNED NOT NULL,PRIMARY KEY(post_id, tag_id));

6. 学习索引
你选择的索引的好坏很重要，不好的话可能破坏数据库。对那些还没有在数据库学习很深入的人来说，索引可以看作是就是 hash 排序。例如如果我们用查询语句 SELECT * FROM users WHERE last_name = lsquo;Goldstein rsquo;，而 last_name 没有索引的话，那么 DBMS 将会查询每一行，看看是否等于“Goldstein”。索引通常是 B -tree(还有其他的类型)，可以加快比较的速度。
你需要给你要 select,group,order,join 的列加上索引。显然每个索引所需的空间正比于表的行数，所以越多的索引将会占用更多的内存。而且写数据时，索引也会有影响，因为每次写数据时都会更新对应的索引。你需要取一个平衡点，取决每个系统和实施代码的需要。

上述内容就是优化查询语句的建议具体是什么，你们学到知识或技能了吗？如果还想学到更多技能或者丰富自己的知识储备，欢迎关注丸趣 TV 行业资讯频道。

正文完