Python jieba中文分词与词频统计的操作案例-编程学习网

这篇文章给大家分享的是有关Python jieba中文分词与词频统计的操作案例的内容。小编觉得挺实用的，因此分享给大家做个参考，一起跟随小编过来看看吧。

Python主要用来做什么

Python主要应用于：1、Web开发；2、数据科学研究；3、网络爬虫；4、嵌入式应用开发；5、游戏开发；6、桌面应用开发。

直接看代码吧：

#! python3# -*- coding: utf-8 -*-import os, codecsimport jiebafrom collections import Counter def get_words(txt): seg_list = jieba.cut(txt) c = Counter() for x in seg_list:  if len(x)>1 and x != '\r\n':   c[x] += 1 print('常用词频度统计结果') for (k,v) in c.most_common(100):  print('%s%s %s %d' % (' '*(5-len(k)), k, '*'*int(v/3), v)) if __name__ == '__main__': with codecs.open('19d.txt', 'r', 'utf8') as f:  txt = f.read() get_words(txt)

样本：十九大报告全文

常用词频度统计结果  发展 ********************************************************************** 212  中国 ******************************************************** 168  人民 **************************************************** 157  建设 ************************************************* 148 社会主义 ************************************************ 146  坚持 ******************************************* 130  国家 ****************************** 90  全面 ***************************** 88  制度 *************************** 83  实现 *************************** 83  推进 *************************** 81  政治 ************************** 80  社会 ************************** 80  特色 ************************** 79  加强 *********************** 71  体系 ********************** 68  文化 ********************** 66  我们 ********************* 64  时代 ********************* 63  必须 ******************** 61  经济 ******************* 59  伟大 ******************* 58  完善 ***************** 51  我国 **************** 50  推动 *************** 47 现代化 *************** 47  安全 *************** 46  更加 ************** 44  民主 ************** 44

补充：jieba读取txt文档并进行分词、词频统计，输出词云图

代码实现

# 库的引用import jiebaimport matplotlib as mplimport matplotlib.pyplot as pltfrom wordcloud import WordCloud#定义一个空字符串final = ""#文件夹位置filename = r"D:\python\pra\推荐系统1-500.txt" #打开文件夹，读取内容，并进行分词with open(filename,'r',encoding = 'utf-8') as f:  for line in f.readlines():    word = jieba.cut(line)    for i in word:      final = final + i +" "

运行结果

Python jieba中文分词与词频统计的操作案例

# 图云打印word_pic = WordCloud(font_path = r'C:\Windows\Fonts\simkai.ttf',width = 2000,height = 1000).generate(final)plt.imshow(word_pic)#去掉坐标轴plt.axis('off')#保存图片到相应文件夹plt.savefig(r'D:\python\pra\6.png')

图云输出图

Python jieba中文分词与词频统计的操作案例

感谢各位的阅读！关于“Python jieba中文分词与词频统计的操作案例”这篇文章就分享到这里了，希望以上内容可以对大家有一定的帮助，让大家可以学到更多知识，如果觉得文章不错，可以把它分享出去让更多的人看到吧！

文章详情

Python jieba中文分词与词频统计的操作案例

Python主要用来做什么

软考中级精品资料免费领

相关文章

猜你喜欢

Python jieba中文分词与词频统计的操作案例

Python中怎么使用Jieba进行词频统计与关键词提取

python中文分词+词频统计的实现步骤

python中文分词和词频统计如何实现

python实现简单中文词频统计示例

Python——jieba优秀的中文分词库（基础知识+实例）

使用Python中的len函数统计文本中的单词数量的示例

node.js中fs文件系统目录操作与文件信息操作的示例分析