Python 爬取微博热搜页面-编程学习网

前期准备：

fiddler 抓包工具
Python3.6
谷歌浏览器

分析：

1.清理浏览器缓存cookie以至于看到整个请求过程，因为Python代码开始请求的时候不带任何缓存。
2.不考虑过多的header参数，先请求一次，看看返回结果

图中第一个链接是无缓存cookie直接访问的，状态码为302进行了重定向，用返回值.url会得到该url后面会用到（headers里的Referer参数值）
2 ，3 链接没有用太大用处为第 4 个链接做铺垫但是都可以用固定参数可以不用访问

访问https://passport.weibo.com/visitor/genvisitor ，cookie为tid=__095,注意tid需要去掉转义字符‘\’,get传的参数有用的只有t也就是tid 其他都是固定值、_rand是浮点随机数没啥具体的意义可以用Python的random.random()函数，需要导入random库，get传参使用params=,post传参用data=,不是随便都能用的

得到返回值含有SUB 和SUBP参数的值
正好是访问最后一个链接也就是热搜榜需要的cookie的值
到此分析结束

代码：

import requests
import random
import re
import urllib3
#警告忽略
urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)
class Wb():
    def __init__(self):
        #利用session保持回话
        self.session=requests.Session()
        #清理headers字典，不然update好像不会起作用
        self.session.headers.clear()

        self.header={
            "Host": "weibo.com",
            "Connection": "keep-alive",
            "Upgrade-Insecure-Requests": "1",
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) "
                          "AppleWebKit/537.36 (KHTML, like Gecko) "
                          "Chrome/86.0.4240.198 Safari/537.36",
            "Accept": "text/html,application/xhtml+xml,application/xml;"
                      "q=0.9,image/avif,image/webp,image/apng,**",
            "Origin": "https://passport.weibo.com",
            "Sec-Fetch-Site": "same-origin",
            "Sec-Fetch-Mode": "cors",
            "Sec-Fetch-Dest": "empty",
            "Referer": response.url,
        }
        self.session.headers.update(header1)
        response1=self.session.post(url="https://passport.weibo.com/visitor/genvisitor"
                                    ,data=data1,proxies=self.fiddler_proxies,verify=False)
        #利用正则表达式解析tid参数的值
        t=re.search('{"tid":"(.*)","new_tid"',response1.text).groups()[0]
        data2={
            "a":"incarnate",
            "t":t.replace("\\",""),
            "w": "2",
            "c": "095",
            "gc":"",
            "cb":"cross_domain",
            "from":"weibo",
            "_rand":random.random()
        }
        header2={
            "Sec-Fetch-Mode": "no-cors",
            "Sec-Fetch-Dest": "script",
            "Cookie":"tid="+t.replace("\\","")+"__095"
        }
        self.session.headers.update(header2)
        response2 = self.session.get(url="https://passport.weibo.com/visitor/visitor",
                                     params=data2,proxies=self.fiddler_proxies,verify=False)
        #从返回值中获取cookie字典
        cookie = requests.utils.dict_from_cookiejar(response2.cookies)


        header3={
            "Cookie":"SUB="+cookie["SUB"]+";"+"SUBP="+cookie["SUBP"],
            "Host": "s.weibo.com",
            "Upgrade-Insecure-Requests": "1"

        }
        self.session.headers.update(header3)
        response3=self.session.get(url="https://s.weibo.com/top/summary",
                                   proxies=self.fiddler_proxies,verify=False)
        # print(response3.text)


if __name__ == '__main__':
    wb=Wb()
    wb.get_top_summary()

至此只能得到原始的html页面，想要进一步操作需要在HTML里面提取有用的数据。。。。。。
爬虫初期需要更多的是耐心

到此这篇关于Python 爬取微博热搜页面的文章就介绍到这了,更多相关Python 爬取微博热搜页面内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

文章详情

Python 爬取微博热搜页面

软考中级精品资料免费领

相关文章

猜你喜欢

Python 爬取微博热搜页面

python爬虫怎么爬取微博热搜

python如何爬取微博热搜存入Mysql

python实战之Scrapy框架爬虫爬取微博热搜

Python定时爬取微博热搜示例介绍

使用python怎么爬取微博的热搜数据

使用Python怎么爬取微博热搜关键词

python趣味挑战之爬取天气与微博热搜并自动发给微信好友

python爬取热搜制作词云

python 爬取新浪微博信息

用Python对微博热搜做舆情分析

用Python实现爬取百度热搜信息

python爬虫如何爬取微博粉丝数据

使用python怎么爬取微博评论

python怎么爬取搜索后的网页

Python实现抖音热搜定时爬取功能

用Python爬取指定关键词的微博

python爬取微博图片数据存到Mysq

怎么用Python实现爬取百度热搜信息

爬取博客园首页并定时发送到微信