文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

scrapy框架的简单介绍

2023-06-02 06:04

关注

这篇文章主要介绍“scrapy框架的简单介绍”,在日常操作中,相信很多人在scrapy框架的简单介绍问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”scrapy框架的简单介绍”的疑惑有所帮助!接下来,请跟着小编一起来学习吧!

1.Scrapy五大基本构成

2.使用scrapy框架爬取网页数据

scrapy框架的简单介绍

这样我们就成功的创建了一个scrapy项目,我们在PyCharm中看看

scrapy框架的简单介绍

scrapy框架的简单介绍

from scrapy.cmdline import executeexecute(["scrapy", "crawl", "csdn",])

3.Xpath选择器的介绍

表达式书写方式表达式意义
*选择HTML页面中任意的节点
/从根节点选取
//从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置
.选取当前节点
..选取当前节点的父节点
/bookstore/book[1]选取属于 bookstore 子元素的第一个 book 元素
/bookstore/book[last()]选取属于 bookstore 子元素的最后一个 book 元素
/bookstore/book[last()-1]选取属于 bookstore 子元素的倒数第二个 book 元素
//title[@lang]选取所有拥有名为 lang 的属性的 title 元素
//title[@lang=’eng’]选取所有 title 元素,且这些元素拥有值为 eng 的 lang 属性
/bookstore/book[price>35.00]选取 bookstore 元素的所有 book 元素,且其中的 price 元素的值须大于 35.00
/bookstore/book[price>35.00]/title选取 bookstore 元素中的 book 元素的所有 title 元素,且其中的 price 元素的值须大于 35.00
//*选取文档中的所有元素
//title[@*]选取所有带有属性的 title 元素
//book/title , //book/price选取 book 元素的所有 title 和 price 元素
//title , //price选取文档中的所有 title 和 price 元素
child::book选取所有属于当前节点的子元素的 book 节点
child::text()选取当前节点的所有文本子节点
/bookstore/book/title选取所有 title 节点
/bookstore/book/price/text()选取 price 节点中的所有文本
//*任意元素

使用XPath

我们来通过XPath选择器爬取网站中我们想要爬取的信息,如下图我们来爬去今日推荐中的
scrapy框架的简单介绍

import scrapyclass CsdnSpider(scrapy.Spider):    name = 'csdn'    allowed_domains = ['www.csdn.net']    start_urls = ['http://www.csdn.net/']    def parse(self, response):       # 选择所有class="company_name"的h4元素下的a元素的文本        result = response.xpath('//h4[@class="company_name"]/a/text()').extract()       # 将得到的文本列表循环        for i in result:           print(i)

我们来看一下输出打印,看看是不是我们想要的结果

scrapy框架的简单介绍

到此,关于“scrapy框架的简单介绍”的学习就结束了,希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习,快去试试吧!若想继续学习更多相关知识,请继续关注编程网网站,小编会继续努力为大家带来更多实用的文章!

阅读原文内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯