一文搞懂Tokenization！-编程学习网

Tokenization是NLP的基本任务，按照特定需求能把一段连续的文本序列（如句子、段落等）切分为一个字符串序列（如单词、短语、字符、标点等多个单元），其中的元素称为token或词语。

具体流程如下图所示，首先将文本句子切分成一个个单元，然后将子单元数值化(映射为向量)，再将这些向量输入到模型进行编码，最后输出到下游任务进一步得到最终的结果。

文本切分

按照文本切分的粒度可以将Tokenization分为词粒度Tokenization、字符粒度Tokenization、subword粒度Tokenization三类。

1.词粒度Tokenization

词粒度Tokenization是最直观的分词方式，即是指将文本按照词汇words进行切分。例如：

The quick brown fox jumps over the lazy dog.

词粒度Tokenized结果：

['The', 'quick', 'brown', 'fox', 'jumps', 'over', 'the', 'lazy', 'dog', '.']

在这个例子中，文本被切分为一个个独立的单词，每个单词作为一个token，标点符号'.'也被视为独立的token。

如若是中文文本，则通常是按照词典收录的标准词汇或是通过分词算法识别出的短语、成语、专有名词等进行切分。例如：

我喜欢吃苹果。

词粒度Tokenized结果：

['我', '喜欢', '吃', '苹果', '。']

这段中文文本被切分成五个词语：“我”、“喜欢”、“吃”、“苹果”和句号“。”，每个词语作为一个token。

2.字符粒度Tokenization

字符粒度Tokenization将文本分割成最小的字符单元，即每个字符被视为一个单独的token。例如：

Hello, world!

字符粒度Tokenized结果：

['H', 'e', 'l', 'l', 'o', ',', ' ', 'w', 'o', 'r', 'l', 'd', '!']

字符粒度Tokenization在中文中是将文本按照每个独立的汉字进行切分。

我喜欢吃苹果。

字符粒度Tokenized结果：

['我', '喜', '欢', '吃', '苹', '果', '。']

3.subword粒度Tokenization

subword粒度Tokenization介于词粒度和字符粒度之间，它将文本分割成介于单词和字符之间的子词（subwords）作为token。常见的subword Tokenization方法包括Byte Pair Encoding (BPE)、WordPiece等。这些方法通过统计文本数据中的子串频率，自动生成一种分词词典，能够有效应对未登录词（OOV）问题，同时保持一定的语义完整性。

helloworld

假设经过BPE算法训练后，生成的子词词典包含以下条目：

h, e, l, o, w, r, d, hel, low, wor, orld

子词粒度Tokenized结果：

['hel', 'low', 'orld']

这里，“helloworld”被切分为三个子词“hel”，“low”，“orld”，这些都是词典中出现过的高频子串组合。这种切分方式既能处理未知词汇（如“helloworld”并非标准英语单词），又保留了一定的语义信息（子词组合起来能还原原始单词）。

在中文中，subword粒度Tokenization同样是将文本分割成介于汉字和词语之间的子词作为token。例如：

我喜欢吃苹果

假设经过BPE算法训练后，生成的子词词典包含以下条目：

我, 喜, 欢, 吃, 苹, 果, 我喜欢, 吃苹果

子词粒度Tokenized结果：

['我', '喜欢', '吃', '苹果']

在这个例子中，“我喜欢吃苹果”被切分为四个子词“我”、“喜欢”、“吃”和“苹果”，这些子词均在词典中出现。虽然没有像英文子词那样将汉字进一步组合，但子词Tokenization方法在生成词典时已经考虑了高频词汇组合，如“我喜欢”和“吃苹果”。这种切分方式在处理未知词汇的同时，也保持了词语级别的语义信息。

索引化

假设已有创建好的语料库或词汇表如下。

vocabulary = {
    '我': 0,
    '喜欢': 1,
    '吃': 2,
    '苹果': 3,
    '。': 4
}

则可以查找序列中每个token在词汇表中的索引。

indexed_tokens = [vocabulary[token] for token in token_sequence]
print(indexed_tokens)

输出：[0, 1, 2, 3, 4]。

文章详情

一文搞懂Tokenization！

文本切分

1.词粒度Tokenization

2.字符粒度Tokenization

3.subword粒度Tokenization

索引化

软考中级精品资料免费领

相关文章

猜你喜欢

一文搞懂Tokenization！

一文搞懂Redis

一文搞懂 API Endpoint

一文搞懂HBA卡

一文搞懂Cookie、Storage、IndexedDB

一文搞懂RPC，So Easy！

一文搞懂 Elasticsearch 之 Mapping

netstat命令,一文搞懂

一文搞懂BeanFactory 和 FactoryBean

一文搞懂ThreadLocal原理

netstat命令，一文搞懂

一文搞懂Cortex-A9 RTC

一文搞懂Spring中的JavaConfig

一文搞懂JSON(JavaScript Object Notation)

一文搞懂 Java8 reduce操作

一文搞懂 Ingress Controller 本质

一文搞懂MySQL预编译

一文搞懂SQL注入攻击

一文搞懂MySQL事务特性

一文搞懂CPU、GPU、ASIC和FPGA