文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

python的scrapy requests与response对象怎么用

2023-06-30 13:51

关注

这篇文章主要介绍了python的scrapy requests与response对象怎么用的相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇python的scrapy requests与response对象怎么用文章都会有所收获,下面我们一起来看看吧。

Request 对象

在 scrapy 中 Request 对象代表着请求,即向服务器发送数据,该对象的构造函数原型如下所示:

def __init__(self, url, callback=None, method='GET', headers=None, body=None,                 cookies=None, meta=None, encoding='utf-8', priority=0,                 dont_filter=False, errback=None, flags=None, cb_kwargs=None)

其中只有 url为必填参数,具体说明如下:

Response 对象

scrapy中,Response对象表示请求响应对象,即服务器返回给爬虫的数据,其构造函数原型如下:

def __init__(self,url,status=200,headers=None,body=b"",    flags=None, request=None,certificate=None,ip_address=None,protocol=None,)

与 Request 一致,该方法中仅 url 为必填参数,不过一般很少用到手动创建一个 Response 对象实例的场景。

Response 类衍生出来一个子类 TextResponse,然后 TextResponse又衍生出来 HtmlResponse和 XmlResponse

Response 包括的属性和方法如下:

属性清单:

方法清单:

关于 Request 和 Response 类的相关源码,可以在 scrapy\http 目录查看。

ItemPipeline

数据管道在 scrapy 中主要对数据进行处理,在实际开发过程中需要注意一个 ItemPipeline,只负责一种功能的数据处理,当然在 scrapy 中你可以创建多个 ItemPipeline

ItemPipeline的使用场景:

在编写ItemPipeline类的时候,不需要其继承特定类,只需要实现固定名称的方法即可,在之前的博客中已经反复提及,自定义ItemPipeline类需要实现 process_item()open_spider()close_spider()方法,其中 process_item()必须实现。

process_item()返回值是 Item 或者字典,也可以返回一个 DropItem类型的数据,此时该项 item 会被忽略,不会被后面的 ItemPipeline处理。

过滤数据的逻辑实现

如果希望在 ItemPipeline实现过滤数据,使用集合即可,发现集合中已经存在数据了,抛出 DropItem即可。

LinkExtractor 提取链接

scrapy 编写的爬虫在提取大量链接时,使用LinkExtractor会更加便捷。 使用 from scrapy.linkextractors import LinkExtractor导入 LinkExtractor,该类的构造函数如下所示:

def __init__(self, allow=(), deny=(),allow_domains=(),deny_domains=(),restrict_xpaths=(),        tags=('a', 'area'),attrs=('href',),canonicalize=False,unique=True,process_value=None,        deny_extensions=None,restrict_css=(),strip=True,restrict_text=None,    )

其中各个参数说明如下:

下面的代码是提取 Response 对象中的链接,需要使用 extract_links() 方法。

def parse(self, response):    link = LinkExtractor()    all_links = link.extract_links(response)    print(all_links)

爬虫编码时间

本次的目标站点是:淘数据-行业报告 

python的scrapy requests与response对象怎么用

 完整代码编写如下所示,使用 LinkExtractor 提取页面超链接。

import scrapyfrom tao.items import TaoItemfrom scrapy.linkextractors import LinkExtractorclass TaoDataSpider(scrapy.Spider):    name = 'tao_data'    allowed_domains = ['taosj.com']    start_urls = [f'https://www.taosj.com/articles?pageNo={page}' for page in range(1, 124)]    def parse(self, response):        link_extractor = LinkExtractor(allow=r'www\.taosj\.com/articles/\d+', restrict_css='a.report-page-list-title')        links = link_extractor.extract_links(response)        for l in links:            item = {                "url": l.url,                "text": l.text            }            yield item

关于“python的scrapy requests与response对象怎么用”这篇文章的内容就介绍到这里,感谢各位的阅读!相信大家对“python的scrapy requests与response对象怎么用”知识都有一定的了解,大家如果还想学习更多知识,欢迎关注编程网行业资讯频道。

阅读原文内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯