文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

实际场景问题之Emoji表情如何操作存储,MySQL是否支持

2024-11-29 21:37

关注

MySQL 中可以存储 emoji 表情,但需要使用 UTF8MB4 字符编码。如果使用 UTF8MB3,存储这些扩展字符会导致解析错误。

课外补充

MySQL 对 Unicode 的支持

Unicode 字符集已成为计算机科学领域的业界标准,它整理、编码了世界上大部分的文字系统,使得计算机能够更简便地呈现和处理文字。

为了满足不同的数据存储和传递需求,人们开发了多种 Unicode Transformation Format(UTF)编码。主要的 UTF 编码包括 UTF-8、UTF-16 和 UTF-32 等。

根据 MySQL 官方文档

MySQL 主要支持以下字符集:utf8、ucs2、utf8mb3、utf8mb4、utf16、utf16le 和 utf32。这些字符集在支持的字符范围和存储空间需求上有所不同。

字符集

支持的字符

每个字符所需存储空间

utf8mb3, utf8

BMP

1-3 字节

ucs2

BMP

2 字节

utf8mb4

BMP 和补充字符

1-4 字节

utf16

BMP 和补充字符

2 或 4 字节

utf16le

BMP 和补充字符

2 或 4 字节

utf32

BMP 和补充字符

4 字节

在 MySQL 官方文档中,介绍了支持的编码方式之后,还有一段醒目的提醒:

图片

以上文字大致意思是:"UTF8MB3 字符集已被弃用,它在未来的 MySQL 版本中将会被删除,请使用 UTF8MB4 代替。在目前的 8.0 版本中,utf8 指的就是 UTF8MB3,虽然未来可能改成 UTF8MB4,但是为了避免产生歧义,可以考虑为字符集引用显式指定 UTF8MB4,而不是 utf8。"

这段话的意思是,MySQL 8.0 版本中使用 UTF-8 字符编码实际上是使用了 utf8mb3 编码方式,但 UTF8MB3 已经被弃用,并且在未来的 MySQL 版本中会被移除。因此,建议在设定字符集时明确指定 UTF8MB4,以避免将来可能引起的歧义和问题。

现在我们来详细讨论 UTF8MB3 的情况。

UTF8MB3

utf8mb3 字符集是 MySQL 早期支持的一种字符集,具有以下特征:

  1. 仅支持 Basic Multilingual Plane(BMP)中的字符,不支持补充字符。
  2. 每个多字节字符最多需要三个字节来表示。

BMP 指的是基本多文种平面,其中的字符码位范围在 0 到 65535(或者用 Unicode 表示为 U+0000 到 U+FFFF)。这意味着 utf8mb3 无法存储码位在 U+10000 到 U+10FFFF 之间的补充字符,包括一些生僻的汉字和 Emoji 表情等。

因此,如果在创建 MySQL 表时使用 utf8mb3(即 utf-8)作为字符编码方式,就无法正确存储和处理补充字符。

UTF8MB4

早期的 Unicode 版本只使用了 0 到 0xFFFF 范围的编码,称为 BMP(Basic Multilingual Plane)字符集。因此,最初 MySQL 设计时只涵盖了支持 BMP 字符集的 utf8mb3(即 utf-8)。随着需求增加,包含在 Unicode 标准中的字符数量也增加了。

因此,早期的 utf8mb3 在某些情况下无法满足需求,特别是随着 Unicode 标准支持更多字符时,三个字节的编码空间变得不足以覆盖所有字符。

为了解决这个问题,MySQL 在 5.5.3 版本之后引入了 utf8mb4 字符集。

utf8mb4 字符集具有以下特点:

  1. 支持 BMP 和补充字符,即能够表示从 0 到 0x10FFFF 的所有 Unicode 字符。
  2. 每个多字节字符最多需要四个字节来编码。

utf8mb4 与 utf8mb3 字符集不同的地方在于,utf8mb3 仅能表示 BMP 字符,而 utf8mb4 则能够处理补充字符。对于 BMP 字符,utf8mb4 和 utf8mb3 的存储方式相同,但对于补充字符,utf8mb4 需要四个字节来存储,而 utf8mb3 则无法处理这些字符。

因此,为了确保能够存储和处理 Unicode 标准中的所有字符,特别是包括 Emoji 表情在内的补充字符,建议在创建 MySQL 表时使用 utf8mb4 字符集,而不是 utf8。

UTF8MB3 和 UTF8MB4 区别及优缺点

前面已经分别介绍了 utf8mb3 和 utf8mb4 字符集,它们的区别总结如下:

总之,utf8mb4 相比 utf8mb3 提供了更广泛的字符支持,尤其是对于包含 Emoji 表情在内的补充字符,但这也可能导致数据存储时占用更多的空间。

从 utf8mb3 转换成 utf8mb4

首先,将字符集从 utf8mb3 转换到 utf8mb4 其实并不困难:

对于 BMP 字符,utf8mb4 和 utf8mb3 具有相同的存储特性:相同的编码值、相同的编码方式以及相同的长度。

对于补充字符,utf8mb4 需要使用 4 个字节进行存储,而 utf8mb3 则无法存储这些字符。当将使用 utf8mb3 的列转换为 utf8mb4 时,您无需担心补充字符的转换问题,因为 utf8mb3 根本不支持补充字符。

假设已有一张表使用了 utf8mb3 字符集:

CREATE TABLE t1 (
  col1 CHAR(10) CHARACTER SET utf8 COLLATE utf8_unicode_ci NOT NULL,
  col2 CHAR(10) CHARACTER SET utf8 COLLATE utf8_bin NOT NULL
) CHARACTER SET utf8;

下面的语句将 t1 转换为 utf8mb4:

ALTER TABLE t1
  DEFAULT CHARACTER SET utf8mb4,
  MODIFY col1 CHAR(10)
    CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci NOT NULL,
  MODIFY col2 CHAR(10)
    CHARACTER SET utf8mb4 COLLATE utf8mb4_bin NOT NULL;


来源:码上遇见你内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯