MySQL中如何处理字符集

47次阅读
没有评论

共计 1965 个字符,预计需要花费 5 分钟才能阅读完成。

这篇文章给大家介绍 MySQL 中如何处理字符集,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。

MySQL 的字符集怎么处理

发送请求

客户端 (character_set_client)=》数据库连接 (character_set_connection)=》存储 (table,column)

返回请求

存储 (table,column)=》数据库连接 (character_set_connection)=》客户端 (character_set_results)

在每一个非初始节点,都会做一次从上一个结点到当前节点的字符集转换操作。举个例子,有如下环境:

character_set_connectionutf-8character_set_resultsgbkcharacter_set_clientgb2312 有表 A,字段字符集全部为 BIG5

发送请求的时候,首先数据从 gbk 转换为 utf-8,再转换为 BIG5,然后再存储。

返回请求的时候,首先数据从 BIG5 转换为 utf-8,再转换为 gb2312,然后再发送给客户端。

MySQL 字符集架构作用有哪些

1. 允许不同的客户端具有不同的字符集。典型的例子就是,我有一个 utf- 8 的站点,这个站点就是一个 charsetclient 为 utf- 8 的客户端。与此同时,我有可能需要在一个 gbk 的终端上读写数据库,这又是一个客户端,不过它的字符集是 gbk。

2. 通过数据库操作文件系统的时候,需要把文件路径转为文件系统的字符集。例如我的客户端是 gbk,而服务器文件系统是 utf-8。操作”/ A 片 /Rina.rmvb”,发送过去的数据里,“片”的数据和服务器是不一样的。这时候就需要有个办法可以把转换 GBK 的“片”到 utf-8。在这里 MySQL 引入了一个叫 character_filesystem 的东西来完成这个事情。

除此之外,我暂时想不到其他的作用了。但是仔细想想,我们真的需要这样的处理吗很多网站,无非就是希望自己的数据能怎么进去就怎么出来。这里又有两种情况了。

1. 希望可以根据数据进行排序或者做 like 操作。首先说排序,对于包含中文的字段来说,根据字符集排序的概念如同鸡肋。简体中文排序,一般都是希望按拼音来排序。我没有去真正了解过 MySQL 里的校验,但是从我接触过的程序来看,需要做此类排序,都是专门建一个存放拼音的字段来排序。而拼音又存在多音字的情况。如果是 UTF-8,还存在某个区间的中文同时被中日韩三国共用的情况。实现起来不是这么容易,所以 MySQL 无论的 GBK 还是 UTF- 8 的校验集应该都没有实现拼音。我敢说,现在国内使用 MySQL 的大多数网站,所用到的校验集,只是一个 byte 排序而已。而 byte 排序,根本不需要使用什么字符集。所以说对于中文站点,MySQL 字符校验在排序上没任何意义。

但是在 like 操作上,倒是有了一点点意义。例如我 like‘%a%’,就有可能匹配到某个中文某个部分含有 a。当然这种情况在 utf- 8 下不会遇到,因为 utf- 8 的存储格式导致 a 只可能是 a,不可能是一个多字节字符的一部分。但是在其他字符集可能就会有这个问题了。说到最后,like 又变得和 order 一样使得校验没意义了。

2. 如果完全不需要对数据进行排序,like 或者全文检索,那么请停止使用 char,varchar,text 之类的吧。binary,varbinary,BLOB 才是正确的选择。binary 之类的在存储,取出的时候都不会进行字符集转换,而在排序时候,只根据二进制内容排序,所以在效率上高出 char,varchar,text 很多。

这种情况更不需要字符集了。但是按照目前 MySQL 的架构,在 client 和 connection 之间的字符集操作,是忽略字段类型的,在这两个节点之间,依然会进行字符集转换。

另外提一下 PHP 里的设置字符集。大家请不要再使用 mysql_query(”setnamesutf8″) 这样的语句了。mysql_set_charset() 才是最完整的字符集设置方式。后者比前者多一个设置,就是把 structMySQL 的 charset 成员也设置了。这个成员变量在 escape 的时候起着很重要的作用,特别是对于 GBK 这种运行把“”作为字符一部分的编码格式。如果你只使用 mysql_query(”setnamesXXX”),那么在某些字符集,会有重大的安全漏洞,导致 mysql_real_escape_string 变得和 addslashes 一样不安全。

计算机要准确的处理各种字符集文字,需要进行字符编码,以便计算机能够识别和存储各种文字。

关于 MySQL 中如何处理字符集就分享到这里了,希望以上内容可以对大家有一定的帮助,可以学到更多知识。如果觉得文章不错,可以把它分享出去让更多的人看到。

正文完
 
丸趣
版权声明:本站原创文章,由 丸趣 2023-08-03发表,共计1965字。
转载说明:除特殊说明外本站除技术相关以外文章皆由网络搜集发布,转载请注明出处。
评论(没有评论)