文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

如何改造 Scrapy 从而实现多网站大规模爬取?

2024-12-03 19:15

关注

但还有另外一种爬虫,它不会拘泥于提取页面上的特定文字,而是关注如何并行爬取非常多的网站。这种爬虫可以实现大规模的爬取。这种爬虫,一般是从若干个种子网址开始爬。进入每个网址后,把该页面的所有网址作为新的种子网址继续爬取,源源不断,生生不息。但爬到以后,一般直接把整个页面的源代码保存下来,通过 Kafka 或者其他组件传给另外的服务进行解析。

为了让 Scrapy 适配这种通用的解析逻辑,需要做一些定制化修改。Scrapy 官方文档中,给出了几点修改建议。

[[346609]]

修改调度队列

Scrapy 默认的调度队列是scrapy.pqueues.ScrapyPriorityQueue,它适合做定向爬虫使用,对于通用爬虫,我们应该修改为scrapy.pqueues.DownloaderAwarePriorityQueue。在 settings.py文件中添加一行:

  1. SCHEDULER_PRIORITY_QUEUE = 'scrapy.pqueues.DownloaderAwarePriorityQueue' 

提高并发量在

settings.py中增加配置:

  1. CONCURRENT_REQUESTS = 100 
  2. CONCURRENT_REQUESTS_PER_DOMAIN = 100 

但是并发量实际上受内存和 CPU 的限制,建议实际测试,选择最适合的数字。

提高 Twisted IO 线程池大小

Scrapy 在做 DNS 解析的时候,是阻塞式的。所以请求量越高,解析 DNS 就会越慢。为了避免这个情况,可以提高线程池的大小。在 settings.py中增加一个配置:

  1. REACTOR_THREADPOOL_MAXSIZE = 20 

搭建专用 DNS 服务器

如果爬虫进程数太多,并发又太快,可能会对 DNS 服务器形成 Dos 攻击。所以建议自己单独搭建一个 DNS 服务器。

减少日志量

Scrapy 默认是 DEBUG 级别的日志等级,每次爬取会产生大量的日志。通过把日志等级调整到INFO 可以大大减少日志量。在 settings.py 中增加一行:

  1. LOG_LEVEL = 'INFO' 

禁用 Cookies 和自动重试

大规模爬虫一般不需要用到 Cookies,所以可以把它禁用。请求失败的自动重试会降低爬虫的速度。但是由于大规模爬虫的爬取范围很大,对于个别失败的请求没有必要重试。因此修改settings.py:

  1. COOKIES_ENABLED = False 
  2. RETRY_ENABLED = False 

降低请求超时时间,禁用自动跳转

有些网址因为远在大洋彼岸或者受到了干扰,请求响应时间很长。对于这种网址,应该果断放弃,避免影响其他网址的爬取。

禁用自动跳转功能,也有助于提高网页访问速度。

  1. DOWNLOAD_TIMEOUT = 10 
  2. REDIRECT_ENABLED = False 

使用广度有限搜索

Scrapy 默认基于深度优先(DFO)搜索算法。但在大规模爬虫中,我们一般会使用广度有限(BFO)搜索算法:

  1. DEPTH_PRIORITY = 1 
  2. SCHEDULER_DISK_QUEUE = 'scrapy.squeues.PickleFifoDiskQueue' 
  3. SCHEDULER_MEMORY_QUEUE = 'scrapy.squeues.FifoMemoryQueue' 

关注内存,谨防内存泄露如果你发现爬虫占用大量内存,但是速度远远低于你设置的并发速度,那么要考虑是否发生了内存泄露。

 

来源:未闻Code内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯