文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

爬虫养成记 - 网络下载器urllib

2023-01-31 08:18

关注

申明:本系列文章借鉴了慕课网的课程,http://www.imooc.com/learn/563。慕课网是一个非常赞的学习网站。

urllib2是python2.x下的一个模块,在Python3.x中,urllib2被拆分成urllib.request和urllib.error.

实现一个最简单的下载器

使用urllib2.urlopen(url)函数可以给服务器发送一个请求。
该函数返回一个file-like object. 该返回的对象有三个额外的函数:

  • geturl() 取得服务器返回的url。一般用来判断是否需要重定向。

  • info() 获取页面的meta信息

  • getcode() 获取响应的http状态码

例如我们写了一小段程序

import urllib2

response = urllib2.urlopen("http://www.baidu.com")
print response.getcode()
print response.info()

用来下载百度首页的内容。

构造一个request对象

urllib2.urlopen()函数不仅仅能接收一个url字符串,还能接收一个request对象。
我们可以在Request对象中添加数据和header。

设置请求头

import urllib2

request = urllib2.Request('https://www.zhihu.com/question/28593608/answer/141936198')
request.add_header('User-Agent', 'Mozilla/5.0')

response = urllib2.urlopen(request)
print response.read()

Post请求方法和在请求中添加数据

上面的代码是一个爬取知乎某一个回答的代码。我们可以看到,我们并没有在request中添加data。
urllib2 默认没有data的,请求方式为GET。
urllib2 如果添加了data,那么请求方式为POST。
例如:

import urllib

values = {
    "name": "charlie",
    "age": 20,
    "gender": "male"
}

data = urllib.urlencode(values)

request.add_data(data)

我们使用POST方式提交数据的时候,我们需要创建一个字典型数据,并且用urllib.urlencode()函数将器编码成字符串,并用Request.add_data()函数添加到request中。

cookie、https、Proxy、HttpRedirect

实际情况中,往往比上面的更加复杂,例如很多网站会设置cookie、可以会使用https加密传输,可能会设置代理,会有重定向等。
如何要处理上面这些特殊的情境,那么我们则需要添加特殊的处理器。

  • HTTPCookieProcessor

  • ProxyHandler

  • HTTPHandler

  • HTTPRedirectHandler

构造好上述对象后,需要运用urllib2.build_opener()创建一个opener.
然后将opener安装到urllib2中: urllib2.install_opener(opener)。
例如:

import urllib2
import cookielib

cookie_jar = cookielib.CookieJar()
cookie_processor = urllib2.HTTPCookieProcessor(cookiejar=cookie_jar)
opener = urllib2.build_opener(cookie_processor)
urllib2.install_opener(opener)

response = urllib2.urlopen("http://www.baidu.com")
for item in cookie_jar:
    print item.name, item.value

如上述代码所示,我们先新建了一个CookieJar。CookieJar是一个内存中保存cookie的对象。
然后我们构造一个cookie的处理器——HTTPCookieProcessor。
然后我们在根据cookie处理器构造一个opener。

opener的概念

opener我们可以理解成打开网页获取response的东西。默认的opener只能接收url、data或resquest等的一个opener。
如果我们想要获得更加多的功能,那么我们就需要构造一个有HttpCookieProcessor的opener。

更多关于urllib2的opener概念,可以阅读一篇非常棒的文章:http://cuiqingcai.com/968.html

阅读原文内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯