utf8mb4的utf8mb4_0900_ai_ci如何理解?mysql新建库如何选择字符集?-编程学习网

MySQL字符集详解_永远是少年啊的博客-CSDN博客_mysql 字符集今天继续给大家介绍MySQL相关知识，本文主要内容是MySQL字符集。一、MySQL字符集简介二、查看和设置MySQL字符集（一）查看当前字符集设置（二）更改默认字符集（三）在创建表时指定字符集三、更改MySQL字符集https://blog.csdn.net/weixin_40228200/article/details/122140283 mysql字符集查看与设置_Hehuyi_In的博客-CSDN博客_mysql查看字符集的设置是一、查看 MySQL 数据库服务器和数据库字符集mysql> show variables like '%char%';+--------------------------+-------------------------------------+------| Variable_name | Value ...https://blog.csdn.net/Hehuyi_In/article/details/96326737 mysql设置了utf8mb4，为什么还有utf8mb4_general_ci和utf8mb4_0900_ai_ci？https://www.cnblogs.com/seasonhu/p/14994857.html MySQL Workbench使用图文教程 - 简书MySQL Workbench是下一代的可视化数据库设计、管理的工具。之前已经记录了其安装得过程：window7安装Windows MySQL Workbench图文教程:h...https://www.jianshu.com/p/c3dcd4d9ce69

如何根据业务选择字符集，见第一篇。

如何修改字符集，见第一、二篇。

新建库经常选utf8mb4_0900_ai_ci或utf8mb4_bin，如何理解utf8mb4_0900_ai_ci？这一点本文重点参考第三篇文章（ https://www.cnblogs.com/seasonhu/p/14994857.html）。

Q：

使用mysql可能会遇到collation不兼容的问题，一个是 utf8mb4_0900_ai_ci，另一个是utf8mb4_general_ci。

创建数据库时也有字符集选择的困惑。

A：

使用老版本mysql，可能会用utf8（utf8mb3）比较多，但mysql语境下的utf8与其他语境中提到的utf-8有些差别，即它最大只支持三个字节，只能存储编码值从0x000到0xFFFF之间的字符。

如果要存储表情文字，比如✈️♥️这类，按照UTF-8规则，则需要四个字节，那么mysql中就需要用utf8mb4这个字符集来支持。

想理解collation如何选择，还需要去了解字符集的相关知识，不能仅仅知道有什么字符集，字符集名字怎么拼。

众多周知，Unicode字符集是全世界各国字符的合集，在一个字符集中为这些字符定义了编码。

而跨语言跨平台使用最广泛的是UTF-8。他们之间的关系是什么呢？

Unicode仅仅是定义了编码。如何存储和传输，其实际方案则是UTF-8（Unicode Transformation Format-8）、UTF-16等变换格式。

UTF-8使用比较普遍，因为它是变长编码，如果只传输ASCII字符，则每个字符只需要一个字节。因此，如果数据中包含大量的ASCII字符，那么UTF-8在存储中可以节省下很多空间。

在这之上，还有一个要明确的问题是字符间的关系如何定义，比如字符的等价规则、字符的先后规则。等价规则，是说哪些字符，我们认为是查询时不需要区分的，如a和A，e和ē、é、ě、è。比较规则，字面意思，很好理解，即大小、先后。关于中文的排序，如果选定collation为utf8mb4，中文里的“啊”、“德”、“副”就不会按"啊德副"这个顺序排序，而是会排成“副”、“啊”、“德”。如果希望中文字符能按照拼音来排序，可以使用gb18030_chinese_ci作为collation【要补充的是，collation依赖于字符集(character set)，所以把gb18030_chinese_ci作为collation，就要求字符集是gb18030，而不能是utf8mb4】。

了解以上信息后，再来看utf8mb4_0900_ai_ci和utf8mb4_general_ci。

utf8mb4_general_ci是老版本mysql提供的collation，utf8mb4_0900_ai_ci则是新版本（MySQL 8.0以后）中的。

0900表示utf8基于的unicode规范为9.0版本。unicode的版本是不断更新而非一成不变的，9.0版本发布于2016年6月，mysql对此的支持总是滞后数年。

ai表示accent insensitivity，也就是“不区分音调”，而ci表示case insensitivity，也就是“不区分大小写”。

这么看来，utf8mb4_0900_ai_ci的命名要更加规范和准确，而utf8mb4_general_ci则有话说太满的感觉，所以老版本中存在utf8mb4_general_ci，在新版本中则统一更新规范成utf8mb4_0900_ai_ci。

如果以前建的各种数据表的collation是utf8mb4_general_ci，新业务建的表是utf8mb4_0900_ai_ci，恰好遇到包含字符串相等或者大小比较的联表查询语句，关联的表使用了不同的collation，MySQL就无法决策到底应当使用哪个，就会报错。既然如此，用alter table table_name collate utf8mb4_0900_ai_ci显式统一所有表的collation，问题就解决了。

把character set和collation分开的好处是什么。如果把字符看作个人，character set就相当给每个字符发张身份证，而collation相当于告诉大家，排队的时候谁在前谁在后。collation有多套，就相当于可以灵活按身高、体重、年龄、出身地等等因素来排序，却完全不会受到身份证号的干扰。

来源地址：https://blog.csdn.net/starfire_hit/article/details/129133001

文章详情

utf8mb4的utf8mb4_0900_ai_ci如何理解?mysql新建库如何选择字符集?

软考中级精品资料免费领

相关文章

猜你喜欢

utf8mb4的utf8mb4_0900_ai_ci如何理解?mysql新建库如何选择字符集?

mysql如何创建数据库并指定字符集

MySQL如何查询当前仓库的字符集

如何在 MySQL 中修改数据库的字符集？(mysql怎么修改数据库的字符集)

如何理解MySQL的转义字符

如何解决Mysql 3.0到Mysql 5.0导库时字符集问题

如何更改生产MySQL数据库库表的字符集

MySQL 字符集概念与原理及如何配置字符集 - 超详细图文详解

我们如何查看特定 MySQL 数据库的默认字符集？

新特性解读 | MySQL 8 的备份工具该如何选择？

如何理解WEB开发中的苦大难字符集问题

我们如何检查服务器上所有MySQL数据库的默认字符集？