使用Python爬取糗事百科热门文章-编程学习网

默认情况下取糗事百科热门文章只有35页，每页20条，根据下面代码可以一次性输出所有的文章，也可以选择一次输出一条信息，回车继续。不支持图片内容的显示，显示内容包括作者，热度（觉得好笑的人越多，热度越高），内容。从热度最高开始显示到最低。实现代码如下：

#!/usr/bin/python
#coding:utf8
"""
爬取糗事百科热门文章
"""

import urllib2
import re

#模拟浏览器访问，否则无法访问
user_agent = r"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36"

#匹配作者，内容和认为段子好笑的人数
regex1 = re.compile(r'<h2>(.*?)</h2>.*?<div class="content">.*?<span>(.*?)</span>.*?<div class="stats">.*?<i class="number">(.*?)</i>', re.S)

n = 1
for i in range(0,35):
    
    url = "https://www.qiushibaike.com/8hr/page/%s/" %(n)
    
    request = urllib2.Request(url, headers={"User-Agent":user_agent})
    response = urllib2.urlopen(request)
    response = response.read()
    
    paragraph = regex1.findall(response)
    
    for i in paragraph:
        author = i[0]
        text = re.sub('<br/>', '\n', i[1])
        count = i[2]
        print("作者：%s" %(author))
        print("好笑：%s" %(count))
        print("内容：%s" %(text))
        print("\n")
        #注释下面三行就一次性显示所有文章
        q = raw_input("退出请输入q/Q，继教看请直接回车：")
        if q == "q" or q == "Q":
            break
    if q == "q" or q == "Q":
            break
    n += 1

文章详情

使用Python爬取糗事百科热门文章

软考中级精品资料免费领

相关文章

猜你喜欢

使用Python爬取糗事百科热门文章

03_多协程爬取糗事百科热图

Python爬取糗事百科所有段子

Python 简单爬虫抓取糗事百科

Python项目实战:爬取糗事百科最热门的内涵搞笑段子

玩转python爬虫之爬取糗事百科段子

如何使用python抓取糗事百科笑话

怎么用Python爬取7日热门的文章

使用python怎么爬取爱奇艺热门电影

如何使用Python爬取人人都是产品经理网站文章