如何使用Requests模块抓取网页-编程学习网

这篇文章主要介绍“如何使用Requests模块抓取网页”的相关知识，小编通过实际案例向大家展示操作过程，操作方法简单快捷，实用性强，希望这篇“如何使用Requests模块抓取网页”文章能帮助大家解决问题。

爬取网页其实就是通过URL获取网页信息，网页信息的实质是一段添加了JavaScript和CSS的HTML代码。Python提供了一个抓取网页信息的第三方模块requests,requests模块自称“HTTP for Humans”,直译过来的意思是专门为人类而设计的HTTP模块，该模块支持发送请求，也支持获取响应。

1.发送请求

requests模块提供了很多发送HTTP请求的函数，常用的请求函数具体如表10-1所示。

表10-1 requests模块的请求函数

如何使用Requests模块抓取网页

2.获取响应

requests模块提供的Response 类对象用于动态地响应客户端的请求，控制发送给用户的信息，并且将动态地生成响应，包括状态码、网页的内容等。接下来通过一张表来列举Response类可以获取到的信息，如表10-2所示。

表10-2 Response 类的常用属性

如何使用Requests模块抓取网页

接下来通过一个案例来演示如何使用requests模块抓取百度网页，具体代码如下：

# 01 requests baiduimport requestsbase_url = 'http://www.baidu.com'#发送GET请求res = requests.get (base_url)print("响应状态码：{}".format(res.status_code))#获取响应状态码print（"编码方式：{}".format(res.encoding)）#获取响应内容的编码方式res.encoding = 'utf-8'#更新响应内容的编码方式为UIE-8print（"网页源代码：n{}".format(res.text）) ＃获取响应内容

以上代码中，第2行使用import导入了requests模块；第3~4行代码根据URL向服务器发送了一个GET请求，并使用变量res接收服务器返回的响应内容；第5~6行代码打印了响应内容的状态码和编码方式；第7行将响应内容的编码方式更改为“utf-8”；第8行代码打印了响应内容。运行程序，程序的输出结果如下：

响应状态码：200编码方式：ISO-8859-1网页源代码：百度一下,你就知道…省略N行…

值得一提的是，使用requests模块爬取网页时，可能会因为没有连接网络、服务器连接失败等原因导致产生各种异常，最常见的两个异常是URLError和HTTPError，这些网络异常可以使用 try…except 语句捕获与处理。

关于“如何使用Requests模块抓取网页”的内容就介绍到这里了，感谢大家的阅读。如果想了解更多行业相关的知识，可以关注编程网行业资讯频道，小编每天都会为大家更新不同的知识点。

文章详情

如何使用Requests模块抓取网页

1.发送请求

2.获取响应

软考中级精品资料免费领

相关文章

猜你喜欢

如何使用Requests模块抓取网页

怎样使用Requests模块抓取网页？

Python使用lxml模块和Requests模块抓取HTML页面的教程

Python爬虫之使用BeautifulSoup和Requests抓取网页数据

Python爬虫之怎么使用BeautifulSoup和Requests抓取网页数据

Python3使用requests包抓取并保存网页源码的方法

Python如何通过requests模块实现抓取王者荣耀全套皮肤

Python如何使用Requests请求网页

Python用requests模块实现动态网页爬虫

php如何抓取网页数据

php如何只抓取网页头

php如何只抓取网页头

Python使用urllib2模块抓取HTML页面资源的实例分享

Python怎么用requests模块实现动态网页爬虫

Python网络请求模块urllib与requests使用介绍

python如何实现基本的抓取网页

VB.NET抓取网页出现错误如何解决

如何用 Python 抓取 javascript 网站？

Python爬虫实现网页信息抓取功能示例【URL与正则模块】

python使用requests模块下载文件并获取进度提示