侯体宗的博客 论不要在mysql中使用[utf8]编码,如果要用请用[utf8mb4]

石可破,丹可磨
  • 首页
  • laravel8仿版
  • beego仿版
  • go_聊天
  • 人生
  • 技术
  • php
  • 架构
  • 数据库
  • 更多
    • 文件下载
    • 匿名群聊
    • 群聊(进来吹会!)
    • 留言
    • 九宫格抽奖
    • 拼图
    • 消消乐
    • 相册
    • 设置栏目
    • 更多设置
    • 分割线

论不要在mysql中使用[utf8]编码,如果要用请用[utf8mb4]

数据库  /  管理员 发布于 2021-02-04 11:11:42   77

mysql中请放弃utf8使用utf8mb4编码

MySQL 的 utf8 不是 UTF-8

「utf8」编码只支持每个字符占三个字节。真正的 UTF-8 编码是 - 每个人都使用,包括你自己 - 每个字符需要四个字节。

MySQL 的开发人员并没有修复这个 bug,但是他们在 2010 年发布了一个解决方案:一种叫做「utf8mb4」的新编码。

当然,他们并没有对外宣传这件事 (大概是因为这个 bug 太尴尬了),现在网上仍然有很多教程让我们使用「utf8」编码,但都是错的。


简而言之:

MySQL 的「utf8mb4」才是真正意义上的「UTF-8」。

MySQL 的「utf8」指的是「一种专有的编码」,这种编码有很多 Unicode 字符不能编码。

我在此做一个明确的声明:所有还在使用「utf8」编码的 MySQL 和 MariaDB 的用户实际上应当使用「utf8mb4」编码。而不应该继续使用「utf8」。


MySQL中 [utf8] / UTF-8 的历史故事

为什么 MySQL 的开发者使用这种不合理的「utf8」?我们可以通过 MySQL 的 commit 日志猜测一下。

MySQL 从 version 4.1 开始支持 UTF-8,大约是在 2003 的时候,比现在的 UTF-8 标准,RFC 3629 还要早。

而以前使用的是 RFC 2279 这套 UTF-8 标准,这套标准中每个字符 6 个字节。MySQL 开发者在 first pre-pre-release version of MySQL 4.1,也就是 2002 年 3 月 28 号实现 RFC 2279 标准。

然后又发生了一件神奇的事情,MySQL 的源代码在 9 月的版本中有一个字节的调整:「UTF8 最大仅支持 3 个字节序列」。

是谁发起了这个 commit?为什么发布这个 commit?我并不知晓。MySQL 的代码仓库似乎在采用 Git 作为版本控制后丢失了一些曾经的贡献者的名字(MySQL 过去的使用的是 BitKeeper 版本控制,像 Linux 内核一样)。MySQL 官方也没有在 2003 年 9 月的正式版发布时的邮件清单中解释这个变更。


但是我可以猜想。

我们说回 2002 年,MySQL 告诉用户,如果用户需要保证每条记录在表中有相同的字节长度的话,有一套 加速优化方案 可以使用。这套方案要求用户在定义字符字段的时候使用「CHAR」类型。一个「CHAR」类型的字段不管存储的数据内容是什么,存储的字符数量始终相同。如果存储的字符比字段规定的要少,会使用空格在结尾填充,直到数量匹配为止;如果存储的字符比字段规定的要多时,会截断多出来的字符。

当 MySQL 开发人员第一次尝试 UTF-8 时,就是还在使用每个字符 6 个字节这种方案时,他们似乎有些犹豫:一个 CHAR(1) 的列会使用 6 个字节长度;一个 CHAR(2) 的列会使用 12 个字节长度等等。


明确的说:他们最初的没有正式发布的做法是正确的,这种解决方案是有据可查且广泛适用的,任何一个只要是理解 UTF-8 编码的人都会认同这个方案。


但是很明显,MySQL 开发人员(或者是发行商)考虑到可能有一些用户会做这两件事情:

1.使用 CHAR 类型字段。(CHAR 字段现在基本没人使用了。但是在当时,MySQL 中使用 CHAR 字段会有更优的速度,但是在 2005 年之后却并非如此)

2.将 CHAR 字段列的编码设置为「utf8」。


我的猜测是 MySQL 开发人员为了方便那些既想优化空间和时间性能,又没能成功优化空间和时间性能的用户,废弃了原有的「utf8」编码。


然而没有人能得到自己想要的。想要优化时间和空间性能的用户仍旧在错误的使用「utf8」CHAR 字段,但是这些字段往往会很大,导致 MySQL 的速度比不使用 CHAR 的时候还要慢。而那些想要使用真正的 UTF-8 的用户错误的使用了「utf8」,导致他们不能存储「?」这类字符。


但是,一旦 MySQL 发布这个无用的字符编码,就再也不能修复它了:

因为这会令所有的用户都要重新构建每一个数据库。所以 MySQL 最终在 2010 年发布了真正的 UTF-8,不过使用了另一个名字「utf8mb4」。


总结

1.数据库系统有微妙的错误和异常,你可以通过数据库的选择避免许多错误。

2.如果你需要一个数据库, 不要使用 MySQL 或者 MariaDB。 使用 PostgreSQL。

3.如果你需要使用 MySQL 或 MariaDB,千万不要使用「UTF8」。当你想要 UTF-8 时,总是使用「UTF8Mb4」。现在去 转换你的数据库吧避免发生头痛的事。


转:https://medium.com/@adamhooper/in-mysql-never-use-utf8-use-utf8mb4-11761243e434


昵称:

邮箱:

0条评论
最新最热
  • 分类目录
  • 人生 (119)
  • 技术 (46)
  • linux (23)
  • blog从零开始 (9)
  • php (48)
  • 架构 (14)
  • 前端 (22)
  • TP(3/5) (14)
  • 数据库 (29)
  • 微信 (2)
  • Laravel (56)
  • Redis (3)
  • Docker (2)
  • Go (8)
  • 近期文章
  • PHP程序员2021年最新面试题集-持续更新中...(0个评论)
  • PHP数组的底层实现原理浅析(0个评论)
  • php7垃圾回收变量的GC机制详解(0个评论)
  • 在Laravel中进行类型转换详解(0个评论)
  • mysql数据库中事务的四个特征及四种隔离级别的浅析描述(0个评论)
  • Linux awk 命令及统计nginx日志里访问次数最多的前十个IP(0个评论)
  • 论不要在mysql中使用[utf8]编码,如果要用请用[utf8mb4](0个评论)
  • JWT源码实现逻辑详解(0个评论)
  • Laravel内核分析-设计模式之观察者模式(0个评论)
  • Laravel内核分析-设计模式之装饰模式(0个评论)
  • 近期评论
  • 博主 在

    国内用什么翻墙使用谷歌?上外网神器Ghelper插件详解中评论 @请教  小图标没有出现 重复检查步骤5,进去看看右下角是否开启..
  • 请教 在

    国内用什么翻墙使用谷歌?上外网神器Ghelper插件详解中评论 你好,我也遇到了安装完右上角没有显示图标,也不能打开相关网页的问题,用的是谷歌浏..
  • Test11 在

    laravel查询构造器中whereNotKey,whereKey,firstWhere用法详解中评论 <script>alert(\test\)</script&g..
  • 博主 在

    国内用什么翻墙使用谷歌?上外网神器Ghelper插件详解中评论 @西瓜: 每一步都操作完达到效果了吗? 对了是用谷歌浏览器吧..
  • 西瓜 在

    国内用什么翻墙使用谷歌?上外网神器Ghelper插件详解中评论 你好 我安装完右上角没有显示图标,也不能打开相关网页,是怎么回事呢?..
  • 文章归档
  • 2016-10 (34)
  • 2016-11 (21)
  • 2017-06 (5)
  • 2017-07 (11)
  • 2017-08 (6)
  • 2017-09 (7)
  • 2017-10 (11)
  • 2017-11 (4)
  • 2017-12 (3)
  • 2018-01 (9)
  • 2018-02 (2)
  • 2018-03 (2)
  • 2018-04 (1)
  • 2018-05 (3)
  • 2018-06 (1)
  • 2018-10 (1)
  • 2018-11 (1)
  • 2020-03 (5)
  • 2020-04 (85)
  • 2020-05 (42)
  • 2020-06 (35)
  • 2020-07 (22)
  • 2020-08 (11)
  • 2020-09 (14)
  • 2020-10 (7)
  • 2020-11 (8)
  • 2020-12 (6)
  • 2021-01 (6)
  • 2021-02 (6)
  • 2021-03 (2)
Top
  • 友情链接
  • 侯体宗的博客
  • 三防加固笔记本
  • 澜溪博客
  • 心中hope
  • 徒步认知的博客
  • 陈大剩博客
  • 赵波的博客
  • 佘春晓的博客
  • 自动友链系统

Auther ·HouTiZong© 2009-2020 zongscan.com 版权所有ICP证: 粤ICP备20027696号 PHP交流群 也可以扫右边的二维码

侯体宗的博客