关于C++遍历中文字符串的问题-编程学习网

小试牛刀

首先我们来一个demo，假如要使用std::string遍历"你好，世界123"这个字符串，你会怎么写？

当时笔者是这么想的：

于是大手一挥，Ctrl C + Ctrl V写下了一下代码：

using namespace std;
int main() {
    std::string text = "你好，世界123";
    for (const auto c:text) {
        std::cout << "c:" << c << std::endl;
    }
    return 0;
}

运行起来一看，我都懵逼了，居然是乱码...

一看到乱码，笔者首先想到的可能编码不是utf-8的，于是我改了一行代码：

 std::string text = u8"你好，世界123";

结果还是于事无补，还是乱码的，我开始有点慌了...

在这里说明一下当在C++中使用字符串字面值时，可以使用前缀u8来表示使用UTF-8编码。这意味着该字符串会以UTF-8编码的格式存储在内存中。

面对这些乱码，我不得不拿出CV工程师的杀手锏，赶紧上stackoverflow求助...

不负众望，果然被我找到了答案。。。

马上复制粘贴来验证一波...

using namespace std;
int main() {
    std::string text = u8"你好，世界123";
    for(size_t i = 0; i < text.length();)
    {
        int cplen = 1;
        if((text[i] & 0xf8) == 0xf0) cplen = 4;
        else if((text[i] & 0xf0) == 0xe0) cplen = 3;
        else if((text[i] & 0xe0) == 0xc0) cplen = 2;
        if((i + cplen) > text.length()) cplen = 1;
        cout << text.substr(i, cplen) << endl;
        i += cplen;
    }
    return 0;
}

运行起来，果然是想要的结果。666，凭实力攻克了一个技术难题，带领公司往前跨了一大步，这回升级加薪稳了吧!!!

寻根问底

本着举一反三的学习态度，我想知道为什么中文字符串的遍历要特殊处理，我找到了这个：https://en.wikipedia.org/wiki/UTF-8#Description

原来一个中文字符不一定是和英文一样占用一个字符，它们可能会占用几个字符，但它们的长度其实可以从字符的头中读取出来的。

我简单地用浏览器翻译了一下，大家将就这看一下大概意思

当然如果你不想自己写获取中文字符长度的逻辑代码，也可以用别人写好的开源库。这里给大家推荐一个轻量级的，只有一个utf8.h文件的开源库：https://github.com/sheredom/utf8.h

那么我们的代码就变成了这样：

int main() {
    std::string text = u8"你好，世界123";
    for (size_t i = 0; i < text.size();)
    {
        auto cplen = utf8codepointcalcsize(&text[i]);
        std::cout << text.substr(i, cplen) << std::endl;
        i += cplen;
    }
    return 0;
}

其实我们查看下utf8.h这个库的utf8codepointcalcsize函数内部实现，和我们上面说的是一样的。

这么一个简单的坑，以前怎么没发现这个问题？一个是没遇到过这样的需求，二是就算用到了也不是用C++实现的，例如在QT上直接使用QString就没有这些问题。

文章详情

关于C++遍历中文字符串的问题

小试牛刀

寻根问底

软考中级精品资料免费领

相关文章

猜你喜欢

关于C++遍历中文字符串的问题

关于hashmap的遍历问题

关于 go 语言中符文、字符串和 unicode 字符的疑问

Go中怎么遍历字符串中的每个字符

关于golang字符串intuintint64uint64互转问题

如何在Golang中遍历字符串的每个字符？

Java关于String字符串原理上的问题

关于Python dict存中文字符dumps()的问题

关于C# 调用Dll 传递字符串指针参数的问题

python遍历字符串中每一个字符的4种方式

关于c语言中输出字符指针的相关问题

C++中字符串处理问题的详解

C语言与C++中关于字符串使用的比较

关于vue2使用element UI中Descriptions组件的遍历问题详解

vue中的循环遍历对象、数组和字符串

关于java数组与字符串相互转换的问题

Python中的循环：遍历列表、元组、字典和字符串

C/C++中关于字符串的常见函数操作大全

C++中字符串处理问题的解决方法

一个关于Java字符串对象问题的详细解答