短信预约-IT技能免费直播动态提醒

短信预约提醒成功

scrapy入门

2023-01-30 23:03

关注

什么是scrapy？

scrapy是一个为了爬去网站数据，提取结构性数据而编写的应用框架，我们只需要实现少量的代码，就能够快速的抓取

scrapy使用了 Twisted 异步网络框架，可以加快我们的下载速度

异步和非阻塞的区别

异步：调用在发布之后，这个调用就直接返回，不管有无结果
非阻塞：关注的是程序在等待调用结果（消息，返回值）时的状态，指在不能立刻得到结果之前，该调用不会阻塞当前线程

安装scrapy

直接安装可能会报错

第一步下载Twisted
- 点击 https://www.lfd.uci.edu/~gohlke/pythonlibs/
- 搜索 Twisted 选择与你的python版本相对应的版本
- 查看python版本命令 python -V或着python -version
第二步安装Twisted
- 进入到刚刚下载的Twisted所在的目录，执行 pip install Twisted‑18.9.0‑cp36‑cp36m‑win_amd64.whl(刚刚下载的文件)
第三部安装scrapy
- pip install scrapy

scrapy项目流程

创建项目
- scrapy startproject 项目名
- 如：scrapy startproject Myspider
创建爬虫
- cd 项目名
- 如：cd Myspider
- scrapy genspider <限制访问的网站(allowed_domains)>
- 如：scrapy genspider itcast itcast.cn
启动爬虫
- scrapy crawl 爬虫名
- 如：scrapy crawl itcast
完善spider
完善管道

完善spider

parse方法必须有，用来处理start_urls对应的响应
extract() response.xpath()从中提取数据的方法，没有就返回一个空列表

数据提取url地址补全

1.手动字符串相加
2.urllib.parse.urljoin(baseurl.url)
- 后面的url会根据baseurl进行url地址的拼接
3.response.follow(url, callback)
- 能够根据response的地址把url拼接完整，构造成request对象

scrapy构造请求

scrapy.Request(url, callback, meta, dont_filter=False)
- callback:url地址的响应的处理函数
- meta：实现在不同的解析函数中传递数据
- dont_filter:默认是Faslse表示过滤，scrapy请求过的url地址，在当前的运行程序中
  
  ---恢复内容结束---
  ### 什么是scrapy？
  scrapy是一个为了爬去网站数据，提取结构性数据而编写的应用框架，我们只需要实现少量的代码，就能够快速的抓取

scrapy使用了 Twisted 异步网络框架，可以加快我们的下载速度

异步和非阻塞的区别

异步：调用在发布之后，这个调用就直接返回，不管有无结果
非阻塞：关注的是程序在等待调用结果（消息，返回值）时的状态，指在不能立刻得到结果之前，该调用不会阻塞当前线程

安装scrapy

直接安装可能会报错

第一步下载Twisted
- 点击 https://www.lfd.uci.edu/~gohlke/pythonlibs/
- 搜索 Twisted 选择与你的python版本相对应的版本
- 查看python版本命令 python -V或着python -version
第二步安装Twisted
- 进入到刚刚下载的Twisted所在的目录，执行 pip install Twisted‑18.9.0‑cp36‑cp36m‑win_amd64.whl(刚刚下载的文件)
第三部安装scrapy
- pip install scrapy

scrapy项目流程

创建项目
- scrapy startproject 项目名
- 如：scrapy startproject Myspider
创建爬虫
- cd 项目名
- 如：cd Myspider
- scrapy genspider <限制访问的网站(allowed_domains)>
- 如：scrapy genspider itcast itcast.cn
启动爬虫
- scrapy crawl 爬虫名
- 如：scrapy crawl itcast
完善spider
完善管道

完善spider

parse方法必须有，用来处理start_urls对应的响应
extract() response.xpath()从中提取数据的方法，没有就返回一个空列表

数据提取url地址补全

1.手动字符串相加
2.urllib.parse.urljoin(baseurl.url)
- 后面的url会根据baseurl进行url地址的拼接
3.response.follow(url, callback)
- 能够根据response的地址把url拼接完整，构造成request对象

scrapy构造请求

scrapy.Request(url, callback, meta, dont_filter=False)
- callback:url地址的响应的处理函数
- meta：实现在不同的解析函数中传递数据
- dont_filter:默认是Faslse表示过滤，表示请求过的url地址，不会被再次请求

阅读原文内容投诉

免责声明：

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的，并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据，供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

历年真题答案解析
备考技巧名师总结
高频考点精准押题

资料下载
历年真题

2024上半年软考中级软件测评师考试基础知识真题
193.9 KB下载数265
2024上半年软考中级软件设计师考试基础知识真题
191.63 KB下载数245
2023下半年-系统集成项目管理工程师-真题考点汇总（完整版）
143.91 KB下载数1142
2023年下半年系统集成项目管理工程师第一、二、三批次真题考点整理(考友回忆版)
183.71 KB下载数642
2023年上半年软考中级《系统集成项目管理工程师》-基础知识-考试真题及答案
644.84 KB下载数2755

2024年上半年信息系统项目管理师第二批次真题及答案解析（完整版）
难度 807人已做
查看
【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析
难度 351人已做
查看
【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析
难度 314人已做
查看
2024年上半年软考高项第一、二批次真题考点汇总（完整版）
难度 433人已做
查看
2024年上半年系统架构设计师考试综合知识真题
难度 221人已做
查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机

scrapy入门

后端开发2023-01-30

爬虫——scrapy入门

后端开发2023-01-30

python 之 scrapy 入门 (

后端开发2023-01-31

scrapy入门学习(原理)

后端开发2023-01-30

Python爬虫框架scrapy入门指

后端开发2023-01-31

如何入门Python Scrapy爬虫框架

后端开发2023-06-02

Scrapy简单入门及实例讲解

后端开发2023-01-31

Python中Scrapy框架的入门教程分享

后端开发2023-03-10

python爬虫入门之Scrapy框架怎么用

后端开发2023-06-14

Python抓取框架Scrapy爬虫入门：页面提取

后端开发2022-06-04

Python的爬虫程序编写框架Scrapy入门学习教程

后端开发2022-06-04

scrapy深入学习----（3）

后端开发2023-01-31

NOSQL入门

NOSQL入门

后端开发2014-05-13

Mysql入门

Mysql入门

后端开发2014-06-01

【Mongodb】入门

【Mongodb】入门

后端开发2021-08-30

Django入门

后端开发2023-01-30

python 入门

后端开发2023-01-30

Django—入门

后端开发2023-01-31

golang入门难不难？怎么入门？

后端开发2023-05-14

Python入门

后端开发2023-01-30

位置：首页-资讯-后端开发

咦！没有更多了？去看看其它编程学习网内容吧