python之jieba分词库使用-编程学习网

一. 介绍

A. 什么是jieba库

jieba库是一款开源的中文分词工具，能够将中文文本切分成词语。

B. jieba库的特点和优势

支持四种分词模式：精确模式、全模式、搜索引擎模式和paddle模式。
提供自定义词典功能，可以添加、删除词语。
支持关键词提取和词性标注。
提供Tokenize接口，可以获取每个词语的起始位置和词性。
支持并行分词，提高分词速度。

C. 安装jieba库

在命令行中使用pip安装jieba库：
```
pip install jieba
```

二. 分词基础

A. 字典加载

jieba库内置了一个默认的词典，可以直接使用。
也可以使用自定义的词典，通过jieba.load_userdict(file_path)加载。

B. 分词模式

精确模式
- 精确模式是将文本按照最大概率进行切分，效果较好。
- 使用方法：jieba.cut(sentence)，返回一个可迭代的分词结果。
全模式
- 全模式将文本中所有可能的词语都切分出来，可能存在冗余。
- 使用方法：jieba.cut(sentence, cut_all=True)，返回一个可迭代的分词结果。
搜索引擎模式
- 搜索引擎模式根据词语的位置进行切分，适合搜索引擎分词。
- 使用方法：jieba.cut_for_search(sentence)，返回一个可迭代的分词结果。
paddle模式
- 利用PaddlePaddle深度学习框架，训练序列标注（双向GRU）网络模型实现分词。同时支持词性标注。paddle模式使用需安装paddlepaddle-tiny，pip install paddlepaddle-tiny==1.6.1。目前paddle模式支持jieba v0.40及以上版本。jieba v0.40以下版本，请升级jieba，pip install jieba --upgrade 。

C. 使用示例

# encoding=utf-8import jieba# 启动paddle模式。 0.40版之后开始支持，早期版本不支持jieba.enable_paddle()strs=["我来到北京清华大学","乒乓球拍卖完了","中国科学技术大学"]for str in strs:    seg_list = jieba.cut(str,use_paddle=True) # 使用paddle模式    print("Paddle Mode: " + '/'.join(list(seg_list)))# 全模式seg_list = jieba.cut("我来到北京清华大学", cut_all=True)print("Full Mode: " + "/ ".join(seg_list))# 精确模式seg_list = jieba.cut("我来到北京清华大学", cut_all=False)print("Default Mode: " + "/ ".join(seg_list))# 默认是精确模式seg_list = jieba.cut("他来到了网易杭研大厦")print(", ".join(seg_list))# 搜索引擎模式seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所，后在日本京都大学深造")  print(", ".join(seg_list))

输出:

【全模式】: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学【精确模式】: 我/ 来到/ 北京/ 清华大学【新词识别】：他, 来到, 了, 网易, 杭研, 大厦    (此处，“杭研”并没有在词典中，但是也被Viterbi算法识别出来了)【搜索引擎模式】： 小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造

三. 自定义词典

A. 添加词语

使用 add_word(word, freq=None, tag=None) 和 del_word(word) 可在程序中动态修改词典。

B. 载入自定义词典

如果有一个包含自定义词语的文件，可以使用jieba.load_userdict(file_path)方法加载该文件，并将其中的词语加入到词典中。

C. 使用示例

import jieba# 添加单个词语到词典中jieba.add_word("自然语言处理")# 载入自定义词典文件jieba.load_userdict("custom_dict.txt")sentence = "我爱自然语言处理"# 分词结果包含自定义词语seg_list = jieba.cut(sentence)print("/".join(seg_list))  # 输出: 我/爱/自然语言处理

四. 关键词提取

A. 基于TF-IDF算法的关键词提取

jieba库提供了基于TF-IDF算法的关键词提取方法jieba.extract_tags(sentence, topK=10)，用于从文本中提取关键词。
topK参数指定返回的关键词数量，默认为10。

B. 基于TextRank算法的关键词提取

jieba库还提供了基于TextRank算法的关键词提取方法jieba.textrank(sentence, topK=10)，也可以用于从文本中提取关键词。
topK参数指定返回的关键词数量，默认为10。

C. 使用示例

import jiebasentence = "自然语言处理是人工智能领域的重要技术之一"# 基于TF-IDF算法的关键词提取keywords = jieba.extract_tags(sentence, topK=5)print(keywords)  # 输出: ['自然语言处理', '人工智能', '技术', '领域', '重要']# 基于TextRank算法的关键词提取keywords = jieba.textrank(sentence, topK=5)print(keywords)  # 输出: ['技术', '重要', '领域', '自然语言处理', '人工智能']

五. 词性标注

A. 词性标注集

jieba库支持对分词结果进行词性标注，使用的是jieba库内置的词性标注集。

B. 使用示例

import jiebaimport jieba.posseg as pseg# 分词并进行词性标注words = pseg.cut("自然语言处理很有趣") #jieba默认模式jieba.enable_paddle() #启动paddle模式。 0.40版之后开始支持，早期版本不支持words = pseg.cut("我爱北京天安门",use_paddle=True) #paddle模式for word, flag in words:    print(word, flag)# 输出:# 自然语言 l# 处理 v# 很 d# 有趣 a

paddle模式词性标注对应表如下：

paddle模式词性和专名类别标签集合如下表，其中词性标签 24 个（小写字母），专名类别标签 4 个（大写字母）。

标签	含义	标签	含义	标签	含义	标签	含义
n	普通名词	f	方位名词	s	处所名词	t	时间
nr	人名	ns	地名	nt	机构名	nw	作品名
nz	其他专名	v	普通动词	vd	动副词	vn	名动词
a	形容词	ad	副形词	an	名形词	d	副词
m	数量词	q	量词	r	代词	p	介词
c	连词	u	助词	xc	其他虚词	w	标点符号
PER	人名	LOC	地名	ORG	机构名	TIME	时间

六. 并行分词

A. 并行分词的优势

jieba库支持并行分词，能够利用多核CPU提高分词速度。
并行分词使用的是基于python多进程的方式，需要在分词前调用jieba.enable_parallel()启用并行分词，之后可以正常使用分词功能。

B. 并行分词使用示例

import jiebajieba.enable_parallel(4)  # 启用并行分词，使用4个进程sentence = "自然语言处理很有趣"# 分词结果seg_list = jieba.cut(sentence)print("/".join(seg_list))# 输出: 自然/语言/处理/很/有趣jieba.disable_parallel()  # 关闭并行分词

七. Tokenize接口

A. 默认模式

jieba库提供了Tokenize接口jieba.tokenize(sentence, mode='default')，用于获取每个词语的起始位置和词性。
默认模式下，返回结果包含词语、词语在文本中的起始位置和结束位置。

B. 搜索引擎模式

在Tokenize接口中，可以选择搜索引擎模式，通过mode='search'参数指定。
搜索引擎模式下，返回结果还包含分词的偏移量，适用于搜索引擎等应用场景。

C. 返回结果格式

Tokenize接口返回的结果是一个可迭代的生成器，每个生成器元素都是一个元组，包含词语、起始位置、结束位置和词性（可选）。

D. 使用示例

import jiebasentence = "自然语言处理很有趣"# 默认模式下的Tokenize接口tokens = jieba.tokenize(sentence)for tk in tokens:    word = tk[0]    start_index = tk[1]    end_index = tk[2]    print(word, start_index, end_index)# 输出:# 自然语言 0 4# 处理 4 6# 很 6 7# 有趣 7 9# 搜索引擎模式下的Tokenize接口tokens = jieba.tokenize(sentence, mode='search')for tk in tokens:    word = tk[0]    start_index = tk[1]    end_index = tk[2]    print(word, start_index, end_index)# 输出:# 自然 0 2# 语言 2 4# 处理 4 6# 很 6 7# 有趣 7 9

八. 总结

本教程介绍了Python中jieba库的基本使用方法和常用功能，包括分词基础、自定义词典、关键词提取、词性标注、并行分词和Tokenize接口。通过学习和掌握这些功能，你可以在中文文本处理中灵活应用jieba库，实现有效的分词、关键词提取和词性标注等任务。

在使用jieba库时，你可以根据具体需求选择不同的分词模式，如精确模式、全模式和搜索引擎模式。还可以通过自定义词典添加特定词语，提高分词的准确性。关键词提取功能可以帮助你从文本中提取出重要的关键词，有助于文本理解和信息提取。词性标注功能可以标注每个词语的词性，对于一些需要深入分析的任务很有帮助。Tokenize接口可以提供词语的起始位置和词性信息，适用于一些特定的应用场景。并行分词功能可以充分利用多核CPU，提高分词速度。

希望这个教程对你有帮助！通过学习和实践，你将能够熟练使用jieba库进行中文文本处理和分析。

📢博客主页：https://blog.csdn.net/qq233325332
📢欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正！
📢本文由陌北v1 原创，首发于 CSDN博客🙉
📢停下休息的时候不要忘了别人还在奔跑，希望大家抓紧时间学习，全力奔赴更美好的生活✨

来源地址：https://blog.csdn.net/qq233325332/article/details/131371005

文章详情

python之jieba分词库使用

目录

一. 介绍

A. 什么是jieba库

B. jieba库的特点和优势

C. 安装jieba库

二. 分词基础

A. 字典加载

B. 分词模式

C. 使用示例

三. 自定义词典

A. 添加词语

B. 载入自定义词典

C. 使用示例

四. 关键词提取

A. 基于TF-IDF算法的关键词提取

B. 基于TextRank算法的关键词提取

C. 使用示例

五. 词性标注

A. 词性标注集

B. 使用示例

六. 并行分词

A. 并行分词的优势

B. 并行分词使用示例

七. Tokenize接口

A. 默认模式

B. 搜索引擎模式

C. 返回结果格式

D. 使用示例

八. 总结

软考中级精品资料免费领

相关文章

猜你喜欢

python之jieba分词库使用

python 中的jieba分词库

Python中文分词库jieba(结巴分词)详细使用介绍

python中jieba库(中文分词库)使用安装教程

Python中jieba分词模块的用法

通过Python的jieba库对文本进行分词

手把手教会你使用Python进行jieba分词

Python中文分词--jieba的基本

Python第三方库jieba库与中文分词全面详解

Python中jieba库如何使用

Python——jieba优秀的中文分词库（基础知识+实例）

Python jieba中文分词与词频统计的操作案例

浅谈python jieba分词模块的基本用法

Python中jieba库的使用方法

如何在python中使用jieba库

关于Python中jieba库的使用

Python基于jieba分词实现snownlp情感分析

Python中jieba库的介绍与使用

Python中怎么使用Jieba进行词频统计与关键词提取

Python jieba分词怎么添加自定义词和去除不需要长尾词