怎么使用python爬虫爬取数据-编程学习网

本篇内容介绍了“怎么使用python爬虫爬取数据”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！

python爬出六部曲

第一步：安装requests库和BeautifulSoup库：

在程序中两个库的书写是这样的：

import requestsfrom bs4 import BeautifulSoup

由于我使用的是pycharm进行的python编程。所以我就讲讲在pycharm上安装这两个库的方法。在主页面文件选项下，找到设置。进一步找到项目解释器。之后在所选框中，点击软件包上的+号就可以进行查询插件安装了。有过编译器插件安装的hxd估计会比较好入手。具体情况就如下图所示。

怎么使用python爬虫爬取数据

第二步：获取爬虫所需的header和cookie：

我写了一个爬取微博热搜的爬虫程序，这里就直接以它为例吧。获取header和cookie是一个爬虫程序必须的，它直接决定了爬虫程序能不能准确的找到网页位置进行爬取。

首先进入微博热搜的页面，按下F12，就会出现网页的js语言设计部分。如下图所示。找到网页上的Network部分。然后按下ctrl+R刷新页面。如果，进行就有文件信息，就不用刷新了，当然刷新了也没啥问题。然后，我们浏览Name这部分，找到我们想要爬取的文件，鼠标右键，选择copy，复制下网页的URL。就如下图所示。

怎么使用python爬虫爬取数据

复制好URL后，我们就进入一个网页Convert curl commands to code。这个网页可以根据你复制的URL，自动生成header和cookie，如下图。生成的header和cookie，直接复制走就行，粘贴到程序中。

怎么使用python爬虫爬取数据

#爬虫头数据cookies = {    'SINAGLOBAL': '6797875236621.702.1603159218040',    'SUB': '_2AkMXbqMSf8NxqwJRmfkTzmnhboh2ygvEieKhMlLJJRMxHRl-yT9jqmg8tRB6PO6N_Rc_2FhPeZF2iThYO9DfkLUGpv4V',    'SUBP': '0033WrSXqPxfM72-Ws9jqgMF55529P9D9Wh-nU-QNDs1Fu27p6nmwwiJ',    '_s_tentry': 'www.baidu.com',    'UOR': 'www.hfut.edu.cn,widget.weibo.com,www.baidu.com',    'Apache': '7782025452543.054.1635925669528',    'ULV': '1635925669554:15:1:1:7782025452543.054.1635925669528:1627316870256',}headers = {    'Connection': 'keep-alive',    'Cache-Control': 'max-age=0',    'Upgrade-Insecure-Requests': '1',    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36 SLBrowser/7.0.0.6241 SLBChan/25',    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,**;q=0.8,application/signed-exchange;v=b3;q=0.9',    'Sec-Fetch-Site': 'cross-site',    'Sec-Fetch-Mode': 'navigate',    'Sec-Fetch-User': '?1',    'Sec-Fetch-Dest': 'document',    'Accept-Language': 'zh-CN,zh;q=0.9',}params = (    ('cate', 'realtimehot'),)#数据存储fo = open("./微博热搜.txt",'a',encoding="utf-8")#获取网页response = requests.get('https://s.weibo.com/top/summary', headers=headers, params=params, cookies=cookies)#解析网页response.encoding='utf-8'soup = BeautifulSoup(response.text, 'html.parser')#爬取内容content="#pl_top_realtimehot > table > tbody > tr > td.td-02 > a"#清洗数据a=soup.select(content)for i in range(0,len(a)):    a[i] = a[i].text    fo.write(a[i]+'\n')fo.close()

怎么使用python爬虫爬取数据

“怎么使用python爬虫爬取数据”的内容就介绍到这里了，感谢大家的阅读。如果想了解更多行业相关的知识可以关注编程网网站，小编将为大家输出更多高质量的实用文章！

文章详情

怎么使用python爬虫爬取数据

python爬出六部曲

第一步：安装requests库和BeautifulSoup库：

第二步：获取爬虫所需的header和cookie：

软考中级精品资料免费领

相关文章

猜你喜欢

怎么使用python爬虫爬取数据

怎么使用python爬虫爬取二手房数据

六个步骤学会使用Python爬虫爬取数据(爬虫爬取微博实战)

Python爬虫：导出爬取的数据

python爬虫爬取赶集网数据

Python 爬虫：如何用 BeautifulSoup 爬取网页数据

如何用六步教会你使用python爬虫爬取数据

使用python怎么爬取数据

python爬虫爬取网页数据并解析数据

使用Python爬虫怎么避免频繁爬取网站

Python爬虫怎么UA伪装爬取

Python爬虫怎么爬取KFC地址

python爬虫之爬取谷歌趋势数据

怎么使用Python爬虫

Python爬虫怎么爬取豆瓣影评

Python爬虫使用lxml模块爬取豆瓣

python爬虫怎么爬取微博热搜

Python爬虫之爬取2020女团选秀数据

Python爬虫爬取百度翻译之数据提取方

使用Python爬虫爬取妹子图图片