学习知识要善于思考,思考,再思考!今天编程网小编就给大家带来《关于 go 语言中符文、字符串和 unicode 字符的疑问》,以下内容主要包含等知识点,如果你正在学习或准备学习Golang,就都不要错过本文啦~让我们一起来看看吧,能帮助到你就更好了!
问题内容go中的string
是不可变的byte
的集合。 byte
是 uint8
的别名。 rune
是 int32
的别名,用于存储字符。
为什么 rune
s 使用 int32
s,而不是 uin32
s?不存在所谓的负面角色。
string
s使用byte
s,其中每个byte
足以存储ascii字符,但不能存储unicode字符。然而,go 可以在字符串中存储 unicode 字符,但是索引一个字符会丢失它的数据。您无法在 go 中隐式将 float64
转换为 int
,因为它可能会丢失它,但是索引包含 unicode 字符的 string
的这种转换不会引发任何错误,只会丢失其数据。如何从 string
中索引 rune
,而不是 byte
?
考虑以下程序及其输出。
package main
import (
"fmt"
)
func main() {
x := "ඞ"
y := x[0]
z := 'ඞ'
fmt.printf("%s vs %c vs %c\n", x, y, z)
}
ඞ vs à vs ඞ
我觉得 string
用于存储 unicode 字符的做法是组合字节,因为也可以从 x
中索引 1。
正确答案
依次回答您的问题...
为什么 rune 是 int32 而不是 uint32?
我怀疑这可能与机器级别的整数本机表示有关,可能针对有符号整数与无符号整数进行了优化。
但最终这并不重要。
首先,unicode 代码点(至少目前)仅使用 0x0000 到 0x10ffff 范围。也就是说,在处理合法 unicode 时,您永远不会遇到负面符文。
如果有 int24
这样的东西,这就足够了。 unicode(代码点)未使用高 8 位(显然是符号位所在的位置)。
所以这可能是使用 int32
的原因,与“优化”无关。
但即使 unicode 规范扩展到完整的 32 位范围,这仍然不会出现问题。
无论有符号还是无符号,内部表示都是一致的。因此,例如,如果某些 go 代码要与其他代码交换符文,并且其他代码使用无符号类型,则不会有问题,因为从根本上来说,交换的是每个符文中的 32 位,而不是解释由任何特定类型覆盖在这 32 位上。
如果使用符文执行算术,符号可能很重要,但如果您这样做,我希望您会对符文以及如何安全地操作它们有深入的了解(大概是为了某种形式的密码学 - 我想不出进行符文算术的任何其他原因。
对字符串中的字节进行索引“丢失数据”
不,在字符串中索引一个字节(这只是一个 []byte
)为您提供您所要求的数据:第 1 个指定字节。
没有任何损失(或获得)。
如果您想要一个由字符串中的字节序列表示的符文,那么您需要询问表示该 rune
的所有字节。
在字符串中索引符文
首先将字符串 ([]byte
) 转换为 []rune
,然后像对任何其他切片一样进行索引。因此,给定一个字符串 s
并希望获得 i
th 符文:
r := []rune(s)[i]
以上就是《关于 go 语言中符文、字符串和 unicode 字符的疑问》的详细内容,更多关于的资料请关注编程网公众号!