文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

如何正确使用 Scrapy 自带的 FilesPipeline?

2024-12-03 14:41

关注

Scrapy自带的 FilesPipeline和ImagesPipeline用来下载图片和文件非常方便,根据它的官方文档[1]说明,我们可以很容易地开启这两个 Pipeline。

如果只是要下载图片,那么用 FilesPipeline 和 ImagesPipeline 都可以,毕竟图片也是文件。但因为使用 ImagesPipeline 要单独安装第三方库 Pillow,所以我们以 FilesPipeline 为例来进行说明。

假设爬虫通过解析网页的源代码,获取到了一张图片,图片的地址为:https://www.528045.com/file/upload/202412/02/yi12134u5ze.gif 当然,png 、 jpg 、甚至 rar、pdf、zip 都可以。

为了使用 Scrapy 自带的 FilesPipeline来下载这张图片,我们需要做几步设置。

定义 items

首先定义任意一个 items,需要确保这个 items 里面,必须包含file_urls字段和files字段,除了这两个必备字段外,你还可以任意增加其他字段。


 

 

启动FilesPipeline

在settings.py中,找到 ITEM_PIPELINES配置,如果它被注释了,那么就解除注释。然后添加如下的配置:

  1. 'scrapy.pipelines.files.FilesPipeline': 1 

再添加一个配置项FILES_STORE,它的值是你想要保存图片的文件夹地址。

修改以后如下图所示:

 

下载图片

接下来,就进入到我们具体的爬虫逻辑中了。在爬虫里面,你在任意一个 parse 函数中提取到了一张或者几张图片的URL 后,把它(们)以列表的形式放入到 item 里面的 file_urls 字段中。如下图所示。

 

注意,此时files字段不需要设置任何的值。其他非必需字段就根据你的需求只有设置即可。

获取结果

由于我们设置了scrapy.pipelines.images.FilesPipeline的优先级为1,是最高优先级,所以它会比所有其他的 Pipeline 更先运行。于是,我们可以在后面的其他Pipeline 中,检查 item 的 files 字段,就会发现我们需要的图片地址已经在里面了。如下图所示:

 

item 中的 files 字段变成了一个包含字典的列表。字典中有一项叫做path的 Key,它的值就是图片在电脑上的路径,例如full/7f471f6dbc08c2db39125b20b0471c3b21c58f3e.gif表示在images文件夹中的full文件夹中的7f471f6dbc08c2db39125b20b0471c3b21c58f3e.gif文件,如下图所示:

 

文件名是该文件的 md5值,如果你想重命名,可以在后续的 pipeline 中,根据 path 的值找到文件,然后修改名字。

修改请求头

看到这里,大家会不会有一个疑问,在使用FilesPipeline的时候,Scrapy 会加上请求头吗?它会用哪一个请求头呢?

实际上,Scrapy 在使用 FilesPipeline和ImagesPipeline时,是不会设置请求头的。如果网站会监控请求图片或者文件的请求的请求头,那么就可以立刻发现这个请求是通过 Scrapy 发起的。

为了证明这一点,我们可以查看FilesPipeline的源代码:

 

在 scrapy/pipelines/files.py文件中,可以看到,FilesPipeline是通过get_media_requests方法来构造对图片的请求对象的。这个请求对象没有设置任何的请求头。

上面的截图是老版本的 Scrapy 的源代码。新版本的源代码里面,get_media_requests可能是这样的:

  1. def get_media_requests(self, item, info): 
  2.     urls = ItemAdapter(item).get(self.files_urls_field, []) 
  3.     return [Request(u) for u in urls] 

为了手动加上请求头,我们可以自己写一个 pipeline,继承FilesPipeline但覆盖get_media_requests方法,如下图所示:

 

注意,在实际使用中,你可能还要加上 Host 和 Referer。

然后修改settings.py中的ITEM_PIPELINES,指向我们自定义的这个pipeline:

 

这样一来,FilesPipeline就能够正确加上请求头了。

最后考大家一个问题,FilesPipeline发起的请求,会经过下载器中间件吗?如果要添加代理 IP 应该怎么做?欢迎大家在本文下面评论回复。

参考资料

 

[1]官方文档: https://docs.scrapy.org/en/latest/topics/media-pipeline.html#using-the-files-pipeline

本文转载自微信公众号「未闻Code」,可以通过以下二维码关注。转载本文请联系未闻Code公众号。

 

来源:未闻Code内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯