文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

为什么idea输出会乱码

2024-04-02 19:55

关注

这篇文章主要介绍“为什么idea输出会乱码”,在日常操作中,相信很多人在为什么idea输出会乱码问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”为什么idea输出会乱码”的疑惑有所帮助!接下来,请跟着小编一起来学习吧!

 前言

乱码这个东西相信大家都遇到过,今天我的女朋友三歪就火急火燎的上来找我:“亲爱的,我的idea怎么输出乱码了?”

我一顿操作就给他搞好了,但是三歪不愧是我的女朋友,好奇心跟我是一样样的,随我。

为什么idea输出会乱码

那为什么会出现乱码呢?

什么是编码,什么是解码?

什么是字符码,什么是字符集?

为什么要有 Unicode ?UTF-8 和 GBK 又有什么不同呢?

三歪坐在我的腿上对我撒娇似的说出这一连串的问题,我这个人宠粉但是更宠女朋友,所以就有了这篇文章。

为什么会出现乱码我们知道计算机里存储的只会是 0 和 1  组成的字节流,而仅是数字满足不了我们的需求,我们还需要文本的处理等等,但是计算机只认识数字,所以我们需要告诉计算机什么数字代表什么字符。

比如我指定 0000 代表 A,0001 代表 B 这样计算机就知道了,所以我要把 AB 这两个字符存入计算机的话,实际存储的就是0000  0001,其实就等于把每个字符定制一个唯一的编码。

但是这是我的指定,不同的人想法是不同的,比如小明就喜欢 1000 表示 A ,1111 表示 B,那小明的计算机按照他指定的编码方式存储,就是 1000  1111,之后传输给我的计算机,我拿到1000 1111,按照我的编码解出来可能就是 %& 了,这就乱码了。

所以乱码的本质就是编码和解码实现没对应上。

有些同学可能对编码和解码的概念不太熟悉,我来解释一下:

可以看到随意编码的就会产生各自的计算机都无法正确解析的情况,所以需要有一个标准,大家都按那个标准来指定字符和数字的对应关系。

标准字符编码

美国国家标准协会 ANSI 就制定了一个标准,即美国信息交换标准代码(ASCII),规定了常用字符集的集合和对应的数字编号,例如 65 表示  A。

为什么idea输出会乱码

ASCII 实际上是 7 位编码,用二进制代码表示就是 0000000~1111111,不过 1 个字节是 8 位,所以一般都用 8 位来存储。可以看到  ASCII 代表了 128 个字符,这其实是倾美国的编码,你看同样讲英文的英国,ASCII 上都没英镑的标记。

还有人家的韩文,日文等等,更别说咱们中文了。

1 个字节最多只能表示 256 个字符,所以对我们来说不够用,因此需要扩展,像 GB2312  就是我们国家标准总局发布的《信息交换用汉字编码字符集》,后来又发布了 GBK ,这个 K 就是扩展的意思,在 GB2312  的基础上又添加了很多比如繁体字等字符。

所以说等于每个国家都有自己的标准,因为语言都是不同的,各字符集的不同就导致计算机之间文档的交流非常困难,因此大家又开始了一波标准化。

像美国的 ANSI 组织制定了 ANSI 标准字符编码,其实就是制定平台默认的编码,比如中国的操作系统就用 GBK ,如果是美国就用  ASCII,操作系统会预装这些标准字符集。

不过这只能解决一份文档一份字符编码的情况,假设我文档里面有日语、法语、德语、俄语、中文,你说怎么办?

Unicode

所以又搞了个 Unicode,又称统一码、万国码、单一码。

Unicode 字符集涵盖了目前人类使用的所有字符,并为每个字符进行统一编号,分配唯一的字符码,你看这种事情总得有人做,不然就没法统一。

这里有几个术语我解释一下,让大伙更加清晰一些。

对于 Unicode 而言有一点和之前的编码不太一样,它将字符集和编码实现解耦了。

之前的编码比如 ASCII 编码、GBK  编码等等,它们的字符集和编码实现是绑死的,你可以理解成以前的编码其实就是查表,有一个固定的表格里面存储这字符和对应固定的二进制,比如 A 对应的编号是  65,其二进制序列就是 01000001。

而 Unicode 不一样,它将字符集和字符编码实现分开了,比如 A 对应的编号是 65,但是对应的二进制序列就不一定了,得看具体的字符编码,如果是  UTF-8 编码,则是 01000001,如果是 UTF-16 编码(大端),则是 00000000 01000001。

为什么idea输出会乱码

这其实也是为什么我们现在常用 UTF-8 而不是 UTF-16 的原因,可以看到 UTF-16 编码存储效率较低,最少使用两个字节,并且像 C  语言的很多函数都会将 0x00 字节作为字符串的停止符来解析,所以才搞了个 UTF-8,其使用 1~4  字节为每个字符编码,是变长的,具体如何编码的我就不说了,随便查一下就有。

到此,关于“为什么idea输出会乱码”的学习就结束了,希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习,快去试试吧!若想继续学习更多相关知识,请继续关注编程网网站,小编会继续努力为大家带来更多实用的文章!

阅读原文内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-前端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯