6

mysql乱码问题如何排查 -利来国际app

陈家睿 2021-11-29
2580

mysql客户端和服务器是怎么通信的

(1)首先请求会被mysql客户端编码为字节序列之后通过网络传输到服务器。

        对于mysql自带的客户端来说,这个编码过程使用的字符集和我们使用的操作系统的默认字符集是一样的,类unix系统的默认字符集就是utf8,windows系统的默认字符集就是gbk。
        启动mysql客户端时,mysql客户端就会检测到这个操作系统使用的是utf8字符集,并将客户端默认字符集设置为utf8。如果mysql不支持自动检测到的操作系统当前正在使用的字符集,或者在某些情况下不允许自动检测的话,mysql会使用它自己的内建的默认字符集作为客户端默认字符集。这个内建的默认字符集在mysql 5.7以及之前的版本中是latin1,在mysql 8.0中修改为了utf8mb4。
        如果我们在启动mysql客户端是使用了default-character-set启动参数,那么客户端的默认字符集将不再检测操作系统当前正在使用的字符集,而是直接使用启动参数default-character-set所指定的值。比方说我们使用如下命令来启动客户端:
mysql --default-character-set=utf8
那么不论我们使用什么操作系统,操作系统目前使用的字符集是什么,我们都将会以utf8作为mysql客户端的默认字符集。

(2)服务器收到字节序列请求之后,会认为该字节串是按照character_set_client系统变量编码的,之后将其从character_set_client转换到character_set_connection,之后进行更深入的处理。

(3)最后再将响应发送到客户端的时候,又会按照character_set_results进行编码。

(4)客户端收到响应字节串之后,按照本客户端规定的字符集进行解码。
对于mysql自带的客户端来说,这个解码过程使用的字符集和我们使用的操作系统的默认字符集是一样的,类unix系统的默认字符集就是utf8,windows系统的默认字符集就是gbk。

系统变量
描述
mysql客户端字符集
mysql客户端字符集
character_set_client服务器解码请求时使用的字符集

(服务器认为请求是按照该系统变量指定的字符集进行编码的)

character_set_connection服务器处理请求时会把请求字符串从character_set_client转为character_set_connection
character_set_results服务器向客户端返回数据时使用的字符集
(服务器采用该系统变量指定的字符集对返回给客户端的字符串进行编码)


从通信转码流程来看,要保证没有乱码出现

character_set_clientcharacter_set_connectioncharacter_set_result这三个系统变量应该和客户端的默认字符集相同即可

set names命令可以一次性修改这三个系统变量


实验验证:

操作系统的字符集编码

数据库字符集


(1)客户端发送请求时会将字符'我'按照utf8进行编码,也就是:0xe68891。

(2)服务器收到请求后发现有前缀_gbk,则不会将其后边的字节0xe68891进行从character_set_client到character_set_connection的转换,而是直接把0xe68891认为是某个字符串由gbk编码后得到的字节序列。

(3)然后再把上述0xe68891从gbk转换为character_set_results,也就是utf8。0xe688在gbk中代表汉字'鎴',而0x91无法解码(我们可以看到上述查询结果中有1个warning)。


结论:

解决乱码问题,要从客户端到服务器通信流程中的字符集编码,转码,解码来分析是哪一步的问题。

一般情况下,保证

  • character_set_client
  • character_set_results
  • character_set_connection
  • 客户端的字符集编码

一致就可解决乱码问题




最后修改时间:2021-11-30 10:35:39
「喜欢文章,快来给作者赞赏墨值吧」
1人已赞赏
【利来手机国际的版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:[email protected]进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

文章被以下合辑收录

评论