怎样使用Requests模块抓取网页？-编程学习网

爬取网页其实就是通过URL获取网页信息，网页信息的实质是一段添加了JavaScript和CSS的HTML代码。Python提供了一个抓取网页信息的第三方模块requests,requests模块自称“HTTP for Humans”,直译过来的意思是专门为人类而设计的HTTP模块，该模块支持发送请求，也支持获取响应。

1.发送请求

requests模块提供了很多发送HTTP请求的函数，常用的请求函数具体如表10-1所示。

表10-1 requests模块的请求函数

怎样使用Requests模块抓取网页？

2.获取响应

requests模块提供的Response 类对象用于动态地响应客户端的请求，控制发送给用户的信息，并且将动态地生成响应，包括状态码、网页的内容等。接下来通过一张表来列举Response类可以获取到的信息，如表10-2所示。

表10-2 Response 类的常用属性

怎样使用Requests模块抓取网页？

接下来通过一个案例来演示如何使用requests模块抓取百度网页，具体代码如下：

# 01 requests baidu
import requests
base_url = 'http://www.baidu.com'
#发送GET请求
res = requests.get (base_url)
print("响应状态码：{}".format(res.status_code))#获取响应状态码
print（"编码方式：{}".format(res.encoding)）#获取响应内容的编码方式
res.encoding = 'utf-8'#更新响应内容的编码方式为UIE-8
print（"网页源代码：n{}".format(res.text）) ＃获取响应内容

以上代码中，第2行使用import导入了requests模块；第3~4行代码根据URL向服务器发送了一个GET请求，并使用变量res接收服务器返回的响应内容；第5~6行代码打印了响应内容的状态码和编码方式；第7行将响应内容的编码方式更改为“utf-8”；第8行代码打印了响应内容。运行程序，程序的输出结果如下：

响应状态码：200
编码方式：ISO-8859-1
网页源代码：

 百度一下,你就知道
…省略N行…

值得一提的是，使用requests模块爬取网页时，可能会因为没有连接网络、服务器连接失败等原因导致产生各种异常，最常见的两个异常是URLError和HTTPError，这些网络异常可以使用 try…except 语句捕获与处理。

以上就是怎样使用Requests模块抓取网页？的详细内容，更多请关注编程网其它相关文章！

文章详情

怎样使用Requests模块抓取网页？

1.发送请求

2.获取响应

软考中级精品资料免费领

相关文章

猜你喜欢

怎样使用Requests模块抓取网页？

如何使用Requests模块抓取网页

Python使用lxml模块和Requests模块抓取HTML页面的教程

Python爬虫之怎么使用BeautifulSoup和Requests抓取网页数据

Python爬虫之使用BeautifulSoup和Requests抓取网页数据

Python3使用requests包抓取并保存网页源码的方法

Python requests模块怎么使用

Python怎么用requests模块实现动态网页爬虫

Python用requests模块实现动态网页爬虫

Python使用urllib2模块抓取HTML页面资源的实例分享

怎么用php抓取网页数据

Python网络请求模块urllib与requests使用介绍

怎么用python爬虫抓取网页文本

使用nodejs怎么抓取页面的始末

怎么用Perl抓取网页和提交表格

Python爬虫实现网页信息抓取功能示例【URL与正则模块】

python使用requests模块下载文件并获取进度提示

使用Python中的pytesseract模块实现抓取图片中文字

手把手教你使用Python抓取并存储网页数据！

Python使用正则表达式抓取网页图片的方法示例