文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

基于 Scrapy 框架的微博评论爬虫实战

2024-12-02 17:29

关注

文末本文转载自微信公众号「志斌的python笔记」,作者志斌。转载本文请联系志斌的python笔记公众号。

大家好,我是志斌~

之前志斌写过的微博爬虫是基于Requests的,今天来跟大家分享一下,基于Scrapy的微博爬虫应该怎么写。

之前分享过一个Requests对微博评论的爬虫,已经对页面进行了全面的分析,本文主要注重对数据采集、存储和文件配置进行分析讲解。

一Scrapy简介

首先,我们需要对Scrapy框架有一个简单的了解,不然在你书写代码的时候会非常的麻烦。

01安装

使用pip对Scrapy进行安装,代码如下:

  1. pip install scrapy 

02创建项目

安装好Scrapy框架之后,我们需要通过终端,来创建一个Scrapy项目,命令如下:

  1. scrapy startproject weibo 

创建好后的项目结构,如下图:

这里我们来简单介绍一下结构中我们用到的部分的作用,有助于我们后面书写代码。

spiders是存放爬虫程序的文件夹,将写好的爬虫程序放到该文件夹中。items用来定义数据,类似于字典的功能。settings是设置文件,包含爬虫项目的设置信息。pipelines用来对items中的数据进行进一步处理,如:清洗、存储等。

二数据采集

经过上面的简单介绍,我们现在对Scrapy框架有了简单的了解,下面我们开始写数据采集部分的代码。

01定义数据

首先,我们对数据存储的网页进行观察,方便我们对获取数据进行定义

通过对网页中数据存储的形式进行观察后,items.py中对数据的定义方式为:

  1. data = scrapy.Field() 

02编辑爬虫

接下来我们在spiders文件夹里面创建一个weibo.py爬虫程序用以书写请求的爬虫代码

代码如下:

  1. import scrapy 
  2. class WeiboSpider(scrapy.Spider): 
  3.    name = 'weibo'  #用于启动微博程序 
  4.    allowed_domains = ['m.weibo.cn']  #定义爬虫爬取网站的域名 
  5.    start_urls = ['https://m.weibo.cn/comments/hotflow?id=4700480024348767&mid=4700480024348767&max_id_type=0']  #定义起始网页的网址 
  6.   for i in res['data']['data']: 
  7.      weibo_item = WeiboItem() 
  8.      weibo_item['data'] = re.sub(r'<[^>]*>''', i['text']) 
  9.      # start_url = ['https://m.weibo.cn/comments/hotflow?id=4700480024348767&mid=4700480024348767&'+str(max_id)+'&max_id_type=0'
  10.      yield weibo_item  #将数据回传给items 

03遍历爬取

学过Requests对微博评论进行爬虫的朋友应该知道,微博评论的URL构造方式,这里我直接展示构造代码:

  1. max_id_type = res['data']['max_id_type'
  2. if int(max_id_type) == 1: 
  3.    new_url = 'https://m.weibo.cn/comments/hotflow?id=4700480024348767&mid=4700480024348767&max_id=' + str( 
  4.        max_id) + '&max_id_type=1' 
  5. else
  6.    new_url = 'https://m.weibo.cn/comments/hotflow?id=4700480024348767&mid=4700480024348767&max_id=' + str( 
  7.        max_id) + '&max_id_type=0' 

三数据存储

光爬取下来数据是不行的,我们还需要对数据进行存储,这里我采用的是csv文件,来对评论数据进行存储,代码如下:

  1. class CsvItemExporterPipeline(object): 
  2.    def __init__(self): 
  3.        # 创建接收文件,初始化exporter属性 
  4.        self.file = open('text.csv','ab'
  5.        self.exporter = CsvItemExporter(self.file,fields_to_export=['data']) 
  6.        self.exporter.start_exporting() 

四程序配置

光写上面的代码是无法爬取到评论的,因为我们还没有对整个程序进行有效的配置,下面我们就在settings.py里面进行配置。

01不遵循robots协议

需要对robts协议的遵守进行修改,如果我们遵循网页的robots协议的话,那无法进行爬取,代码如下:

  1. # Obey robots.txt rules 
  2.  
  3. ROBOTSTXT_OBEY = False 

02使用自定义cookie

我们知道,想要爬取微博评论,需要带上自己的cookie用以信息校验,因为我们的cookie是在headers中包裹着的,所以我们需要将COOKIES_ENABLED改为False,代码如下:

  1. # Disable cookies (enabled by default
  2. COOKIES_ENABLED = False 

03打开管道

想要进行数据存储,还需要在配置中,打开通道,用以数据传输,代码如下:

  1. # Configure item pipelines 
  2. # See https://docs.scrapy.org/en/latest/topics/item-pipeline.html 
  3. ITEM_PIPELINES = { 
  4.   'weibo.pipelines.CsvItemExporterPipeline': 1, 
  5.   'weibo.pipelines.WeiboPipeline': 300, 

五启动程序

我们在spiders同级的的目录下创建一个wb_main.py文件,便于我们在编辑器中启动程序,代码如下:

  1. from scrapy import cmdline 
  2. #导入cmdline模块,可以实现控制终端命令行。 
  3. cmdline.execute(['scrapy','crawl','weibo']) 
  4. #用execute()方法,输入运行scrapy的命令。 

六总结

本文详细的介绍了,如何用Scrapy框架来对微博评论进行爬取,建议大家动手实操一下,便于理解。

本文仅供学习参考,不做它用。

 

来源:志斌的python笔记 内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯