文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

三个一组还是四个一组?从 Bytes 到 Unicode 的字节划分方法

2024-12-14 00:21

关注

大家在 Python 开发过程中,经常会进行字符串encode为 Bytes型数据,或者把 Bytes 型数据 decode为字符串的操作。例如:图片我们知道,在 Unicode 编码中,中文占3个字节,所以一个中文字符编码为 Bytes 型数据以后,会占用3个 Bytes 字符,例如:

  1. >>> a = '青'  
  2. >>> a.encode()  
  3. b'\xe9\x9d\x92'  
  4. >>> b = '青南'  
  5. >>> b.encode()  
  6. b'\xe9\x9d\x92\xe5\x8d\x97'  

注意这里的\xe9需要作为整体来看待,表示一个16进制数。

所以,当我要把 Bytes 型数据\xe9\x9d\x92\xe5\x8d\x97 转为字符串时,Python 会把\xe9\x9d\x92转成青字,把\xe5\x8d\x97转成南字,看起来,似乎是 Python 知道应该把每3个 Bytes 符号一组来进行处理。

然而,Unicode 中,emoji 表情是4个字节,例如表情符号:

??,它对应的 Bytes 型数据为:

\xf0\x9f\xa4\x94,如下图所示:

如果我把青??南转换为 Bytes 型数据,值为:

\xe9\x9d\x92\xf0\x9f\xa4\x94\xe5\x8d\x97,如下图所示,一共10个 Bytes 字符:

那么问题来了,当我对这个 Bytes 型数据进行 decode 会怎么样呢?如下图所示:

Python 可以正确地把 Bytes 数据划分为:

  1. \xe9\x9d\x92 对应“青”  
  2. \xf0\x9f\xa4\x94 对应“🤔”  
  3. \xe5\x8d\x97 对应“南”  

为什么 Python 知道要把\xf0\x9f\xa4\x94这4个符号分到一组?为什么不会像下面这样分组?

  1. \xe9\x9d\x92  
  2. \xf0\x9f\xa4  
  3. \x94\xe5\x8d\x97  

实际上,这个问题的原因,只有当我们用二进制来看的时候,才能发现端倪。 青对应的第一个 Bytes 字符\xe9,其中的e9是一个十六进制数字,把它转成十进制是233,转成二进制是11101001。 南对应的第一个 Bytes 字符\xe5,其中的e5是一个十六进制数字,把它转成十进制是229,转成二进制是11100101。 ??对应的第一个 Bytes 字符\xf0,其中的f0是一个十六进制数字,把它转成十进制是240,转成二进制是11110000。如果还看不出他们的差异,那我们把他们放在一起对比一下:

  1. 11101001  
  2. 11100101  
  3. 11110000  

看出差异了吗?中文汉字是三个字节,转换为 Bytes 型数据以后,第一个字符对应的二进制数是1110开头。emoji 是4个字节,转换为 Bytes 型数据以后,第一个字符对应的二进制数是1111开头。所以,当给定一个 Bytes 型数据需要给 Python 来转换为字符串的时候,Python 是这样判断应该有几个字符一组的。

 

本文转载自微信公众号「未闻Code」,可以通过以下二维码关注。转载本文请联系未闻Code公众号。

 

来源:未闻Code内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯