文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

使用Python爬取糗事百科热门文章

2023-01-31 05:55

关注

  默认情况下取糗事百科热门文章只有35页,每页20条,根据下面代码可以一次性输出所有的文章,也可以选择一次输出一条信息,回车继续。不支持图片内容的显示,显示内容包括作者,热度(觉得好笑的人越多,热度越高),内容。从热度最高开始显示到最低。实现代码如下:

#!/usr/bin/python
#coding:utf8
"""
爬取糗事百科热门文章
"""

import urllib2
import re

#模拟浏览器访问,否则无法访问
user_agent = r"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36"

#匹配作者,内容和认为段子好笑的人数
regex1 = re.compile(r'<h2>(.*?)</h2>.*?<div class="content">.*?<span>(.*?)</span>.*?<div class="stats">.*?<i class="number">(.*?)</i>', re.S)

n = 1
for i in range(0,35):
    
    url = "https://www.qiushibaike.com/8hr/page/%s/" %(n)
    
    request = urllib2.Request(url, headers={"User-Agent":user_agent})
    response = urllib2.urlopen(request)
    response = response.read()
    
    paragraph = regex1.findall(response)
    
    for i in paragraph:
        author = i[0]
        text = re.sub('<br/>', '\n', i[1])
        count = i[2]
        print("作者:%s" %(author))
        print("好笑:%s" %(count))
        print("内容:%s" %(text))
        print("\n")
        #注释下面三行就一次性显示所有文章
        q = raw_input("退出请输入q/Q,继教看请直接回车:")
        if q == "q" or q == "Q":
            break
    if q == "q" or q == "Q":
            break
    n += 1

.


阅读原文内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯