文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

手把手教你使用Scrapy框架来爬取北京新发地价格行情(实战篇)

2024-12-02 20:42

关注

大家好!我是霖hero。上个月的时候,我写了一篇关于IP代理的文章,手把手教你使用XPath爬取免费代理IP;前几天,我又发布了第二篇文章,这篇文章主要是讲Scrapy理论知识的,手把手教你使用scrapy框架来爬取北京新发地价格行情(理论篇),今天在这里分享我的第三篇文章,关于Scrapy实战的应用文章,希望大家可以喜欢。

前言

关于Scrapy理论的知识,可以参考我的上一篇文章,这里不再赘述,直接上干货。

实战演练

爬取分析

首先我们进入北京新发地价格行情网页并打开开发者工具,如下图所示:

经过简单的查找,发现每个getPriceData.html存放着价格行情的数据,由此可得,我们可以通过getPriceData.html来进行数据的获取。

观察Headers请求,如下图所示:

发现它是POST请求,请求URL链接是http://www.xinfadi.com.cn/getPriceData.html,current是翻页的重要参数,limit是每页有多少行数据,我们可以构造消息体,代码如下所示:

  1. data={ 
  2. 'limit''20'
  3. 'current':page 

通过scrapy.Request()方法将消息体传入到参数里面。

或者我们可以根据测试和观察规律,自己构造URL链接,通过观察分析,请求的URL链接可以为:

  1. http://www.xinfadi.com.cn/getPriceData.html?limit=20&current=1 
  2. http://www.xinfadi.com.cn/getPriceData.html?limit=20&current=2 
  3. http://www.xinfadi.com.cn/getPriceData.html?limit=20&current=3 

创建Spider爬虫

分析北京新发地价格行情后,接下来我们首先创建一个Scrapy项目,使用如下命令:

  1. scrapy startproject Vegetables 

这样我们就成功创建了一个Scrapy项目,项目文件如下所示:

接下来创建spider爬虫,使用如下命令:

  1. scrapy genspider vegetables www.xinfadi.com.cn 

创建后vegetables.py内容如下所示:

  1. import scrapy 
  2.  
  3. class VegetablesSpider(scrapy.Spider): 
  4.    name = 'vegetables' 
  5.    allowed_domains = ['www.xinfadi.com.cn'
  6.    start_urls = ['https://www.xinfadi.com.cn'
  7.     
  8.    def parse(self, response): 
  9.        pass 

提取数据

在提取数据前,我们首先把要爬取的数据字段在items.py文件中定义好,代码如下所示:

  1. import scrapy 
  2.  
  3. class VegetablesItem(scrapy.Item): 
  4.    # define the fields for your item here like
  5.    productName = scrapy.Field() 
  6.    lowPrice=scrapy.Field() 
  7.    highPrice=scrapy.Field() 

这里我们定义了三个字段分别是productName、lowPrice、highPrice

定义好字段后,接下来将在创建的vegetables.py文件中进行数据的提取,具体代码如下

  1. import scrapy 
  2. from Vegetables.items import VegetablesItem 
  3.  
  4. class VegetablesSpider(scrapy.Spider): 
  5.    name = 'vegetables' 
  6.    allowed_domains = ['www.xinfadi.com.cn'
  7.    def start_requests(self): 
  8.        for i in range(1, 3): 
  9.            url = f'http://www.xinfadi.com.cn/getPriceData.html?limit=20¤t={i}' 
  10.            yield scrapy.Request(url=url, callback=self.parse) 
  11.  
  12.    def parse(self, response): 
  13.        html = response.json() 
  14.        fooddata = html.get('list'
  15.        for i in fooddata: 
  16.            item=VegetablesItem() 
  17.            item['highPrice'] =i.get('highPrice'), 
  18.            item['lowPrice'] = i.get('lowPrice'), 
  19.            item['prodName'] = i.get('prodName'), 
  20.            yield item 

首先我们导入vegetablesitem,使用start_requests函数实现翻页,大家可以使用刚才我们所讲的方法实现翻页,实现翻页后,我们通过编写parse()方法实现数据的获取,首先我们把引擎响应的数据以json()格式存放在html里面,调用get()方法来提取我们想要的数据,最后通过yield生成器返回给引擎。

最后我们在settings.py设置引擎的启动,代码如下所示:

  1. ITEM_PIPELINES = { 
  2.   'Vegetables.pipelines.VegetablesPipeline': 300, 

在这里我们就不保存数据在MongoDB数据库里面了,我们直接启动Spider爬虫并把数据以csv格式输出,使用如下命令:

  1. scrapy crawl vegetables -o 11.c 

运行结果如下:

好了,Scrapy框架爬取北京新发地就讲解到这里了,感谢观看!!!

总结

大家好,我是霖hero。这篇文章基于上篇理论文章,主要给大家分享了Scrapy爬虫框架的实战内容,Scrapy是一个基于Twisted的异步处理框架,是纯Python实现的爬虫框架,是提取结构性数据而编写的应用框架,其架构清晰,模块之间的耦合程度低,可扩展性极强。

【编辑推荐】

  1. 鸿蒙官方战略合作共建——HarmonyOS技术社区
  2. 任何Ubuntu用户都应安装的四大Linux应用程序
  3. 工信部:5G手机终端连接数达4.19亿户
  4. 只需两步,教会你正确处理旧手机,变废为宝
  5. MySQL的三条JOIN子句使用指南
  6. 苹果iOS 15再次迎来更新,除了实况文本外,还有五个新发现

 

来源:Python爬虫与数据挖掘内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯