文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

Python基于词频排序如何实现快速挖掘关键词

2023-07-05 08:57

关注

这篇文章主要介绍“Python基于词频排序如何实现快速挖掘关键词”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“Python基于词频排序如何实现快速挖掘关键词”文章能帮助大家解决问题。

一、所有的代码

这是所有的代码

from collections import defaultdictimport jieba.posseg as jpwith open('keyword.txt','r',encoding='utf-8') as file:keyword_list = file.read().split('\n')not_flag = set(['w','x','y','z','un','m'])not_word = set(['的','是','有','啊','呢','么','好'])keyword_split = dict()word_count = defaultdict(int)for keyword in keyword_list:word_set = set()for word,flag in jp.cut(keyword):if flag in not_flag:continueif word in not_word:continueif word == 'pdf' or word == 'PDF':continueword_count[word] += 1word_set.add(word)keyword_split[keyword] = word_setid_keyword_list = defaultdict(list)id_count = defaultdict(int)for keyword,word_set in keyword_split.items():word_sort = dict()for word in word_set:word_sort[word] = word_count[word]word_sort = sorted(word_sort.items(),key=lambda x:x[1],reverse=True)word_id = ','.join([word for word,count in word_sort[0:3]])id_keyword_list[word_id] += [keyword]id_count[word_id] += 1result = []id_count = sorted(id_count.items(),key=lambda x:x[1],reverse=True)for word_id,count in id_count:if count < 3:continuefor keyword in id_keyword_list[word_id]:result.append('%s\t%s' % (keyword,word_id))result.append('')with open('result.txt','wb') as file:file.write('\n'.join(result).encode('utf-8'))

二、实现的效果

keyword.txt如下图:

有50万的关于pdf的关键词数据

Python基于词频排序如何实现快速挖掘关键词

最后的输出result.txt 就是将里面的含有关键词相同的句子统一输出出来:

Python基于词频排序如何实现快速挖掘关键词

这里会将一个句子的3个关键词输出出来 关键词是根据词频排序的。

最后将所有关键词一样的句子组合在一起,就可以知道这些句子表达的意思大致一致

三、代码解读

keyword_list 是从keyword.txt读取到的所有的句子

not_flag 是要排除的标记,不统计这些标记

not_word 是要排除的单词,不统计这些单词

keyword_split 是句子对应到他的所有单词的字典,key是句子,value是他的所有单词的集合

Python基于词频排序如何实现快速挖掘关键词

word_count 是所有的拆分后的单词的次数的字典,key是单词,value是单词出现的次数

Python基于词频排序如何实现快速挖掘关键词

id_keyword_list 是一个字典,它的key是一个字符串 value是列表

Python基于词频排序如何实现快速挖掘关键词

Python基于词频排序如何实现快速挖掘关键词

id_count 是一个字典,它的key是一个字符串,value是int

Python基于词频排序如何实现快速挖掘关键词

Python基于词频排序如何实现快速挖掘关键词

最后对id_count处理 将结果输出出来

id_count = sorted(id_count.items(), key=lambda x: x[1], reverse=True)for word_id, count in id_count:    if count < 3:        continue    for keyword in id_keyword_list[word_id]:        result.append('%s\t%s' % (keyword, word_id))    result.append('')

关于“Python基于词频排序如何实现快速挖掘关键词”的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识,可以关注编程网行业资讯频道,小编每天都会为大家更新不同的知识点。

阅读原文内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     807人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     351人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     314人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     433人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     221人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯