文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

Scrapy的基础知识是什么

2023-06-17 02:28

关注

Scrapy的基础知识是什么,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。

我们将在这里介绍完Scrapy的基础知识

架构简介

下面是Scrapy的架构,包括组件以及在系统中发生的数据流的概览(红色箭头所示)。 之后会对每个组件做简单介绍,数据流也会做一个简要描述。

Scrapy的基础知识是什么

Scrapy的基础知识是什么

Scrapy的基础知识是什么

Scrapy的基础知识是什么

架构就是这样,流程和我第二篇里介绍的迷你架构差不多,但扩展性非常强大。

One more thing

Scrapy的基础知识是什么

Scrapy的基础知识是什么

Scrapy的基础知识是什么

scrapy startproject tutorial

该命令将会创建包含下列内容的 tutorial 目录:

tutorial/      scrapy.cfg            # 项目的配置文件      tutorial/             # 该项目的python模块。之后您将在此加入代码          __init__.py          items.py          # 项目中的item文件          pipelines.py      # 项目中的pipelines文件          settings.py       # 项目的设置文件          spiders/          # 放置spider代码的目录              __init__.py

编写第一个爬虫

Spider是用户编写用于从单个网站(或者一些网站)爬取数据的类。其包含了一个用于下载的初始URL,以及如何跟进网页中的链接以及如何分析页面中的内容的方法。

以下为我们的***个Spider代码,保存在 tutorial/spiders 目录下的 quotes_spider.py文件中:

import scrapy    class QuotesSpider(scrapy.Spider):      name = "quotes"        def start_requests(self):          urls = [              'http://quotes.toscrape.com/page/1/',              'http://quotes.toscrape.com/page/2/',          ]          for url in urls:              yield scrapy.Request(url=url, callback=self.parse)        def parse(self, response):          page = response.url.split("/")[-2]          filename = 'quotes-%s.html' % page          with open(filename, 'wb') as f:              f.write(response.body)          self.log('Saved file %s' % filename)

运行我们的爬虫

进入项目的根目录,执行下列命令启动spider:

scrapy crawl quotes

这个命令启动用于爬取 quotes.toscrape.com 的spider,你将得到类似的输出:

2017-05-10 20:36:17 [scrapy.core.engine] INFO: Spider opened  2017-05-10 20:36:17 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)  2017-05-10 20:36:17 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6023  2017-05-10 20:36:17 [scrapy.core.engine] DEBUG: Crawled (404) <GET http://quotes.toscrape.com/robots.txt> (referer: None)  2017-05-10 20:36:17 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://quotes.toscrape.com/page/1/> (referer: None)  2017-05-10 20:36:17 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://quotes.toscrape.com/page/2/> (referer: None)  2017-05-10 20:36:17 [quotes] DEBUG: Saved file quotes-1.html  2017-05-10 20:36:17 [quotes] DEBUG: Saved file quotes-2.html  2017-05-10 20:36:17 [scrapy.core.engine] INFO: Closing spider (finished)

提取数据

我们之前只是保存了HTML页面,并没有提取数据。现在升级一下代码,把提取功能加进去。至于如何使用浏览器的开发者模式分析网页,之前已经介绍过了。

import scrapy   class QuotesSpider(scrapy.Spider):      name = "quotes"      start_urls = [          'http://quotes.toscrape.com/page/1/',          'http://quotes.toscrape.com/page/2/',      ]        def parse(self, response):          for quote in response.css('div.quote'):              yield {                  'text': quote.css('span.text::text').extract_first(),                  'author': quote.css('small.author::text').extract_first(),                  'tags': quote.css('div.tags a.tag::text').extract(),              }

再次运行这个爬虫,你将在日志里看到被提取出的数据:

2017-05-10 20:38:33 [scrapy.core.scraper] DEBUG: Scraped from <200 http://quotes.toscrape.com/page/1/>  {'tags': ['life', 'love'], 'author': 'Andr&eacute; Gide', 'text': '“It is better to be hated for what you are than to be loved for what you are not.”'}  2017-05-10 20:38:33 [scrapy.core.scraper] DEBUG: Scraped from <200 http://quotes.toscrape.com/page/1/>  {'tags': ['edison', 'failure', 'inspirational', 'paraphrased'], 'author': 'Thomas A. Edison', 'text': "“I have not failed. I've just found 10,000 ways that won't work.”"}

保存爬取的数据

最简单存储爬取的数据的方式是使用 Feed exports:

scrapy crawl quotes -o quotes.json

该命令将采用 JSON 格式对爬取的数据进行序列化,生成quotes.json文件。

如果需要对爬取到的item做更多更为复杂的操作,你可以编写 Item Pipeline,tutorial/pipelines.py在最开始的时候已经自动创建了。

看完上述内容是否对您有帮助呢?如果还想对相关知识有进一步的了解或阅读更多相关文章,请关注编程网行业资讯频道,感谢您对编程网的支持。

阅读原文内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯