文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

爬虫分享风云2号卫星气象照片

2023-06-05 04:33

关注

爬虫概述

早在2016年,我用我的阿里云ECS上运行了一个长期性质的爬虫程序,内容是采集风云二号气象卫星照片,现在假期终于有时间回来查看结果,简单统计如下(附图):

图片总数:45869 个文件

最早文件:201609131345.jpg

最晚文件:201910091415.jpg

爬虫分享风云2号卫星气象照片

爬虫运行过程

1,数据源:

当时意外获得一个长期有效的数据来源,其URL参数,为时间格式,也就是说有着明显的规律。适合爬虫运行

2,爬虫运行:

这个爬虫的运行条件其实有2个:1定时下载;2不停机运行;

既然是气象数据,当然得定时抓取,所以我写了一个windows服务,置于后台连续运行。虽然中间由于服务器其他问题导致中断过几次,不过架不住时间长久,因此还是成功连续采集了很多数据。

还有个要求就是不能关机,程序需要连续运行。我的最终方案就是使用云服务器ECS部署运行。避免使用个人PC长期开机来运行。

3,处理存储:

首先,这个程序既然要长期运行,那么非常避讳的一点就是所有结果都集中在一个本地文件夹里,因此我选用了阿里云对象存储OSS,同时由于我需要不关机,所以我最终是云服务器ECS+对象存储OSS,ECS和OSS使用了同地域的,因此内网打通传输很快。这样我就只在本地做一个临时存储,转存OSS后不再占用本地硬盘,这样一来我才可以放心启动后“免维护”运行这好几年。

4,爬虫关停

爬虫的关停并非我本意,是我假期期间查看日志才知道数据源已经失效了。因此本爬虫寿终正寝。虽然我可以去寻找一下新的有效数据源,但是由于老数据我都没用好,那么新的数据就暂时先不去寻找了。

爬虫工作完成,最终成果下载

我选用了阿里云推荐的OSS客户端工具,由于我提前规划好了ECS和OSS同地域,因此可以直接内网下载到我的ECS,速度还是很快的,工具显示大于60MB/s。工具部分截图如图:

爬虫分享风云2号卫星气象照片

为了避免OSS公网下载流量的费用支出(其实是穷:直接下载6G大小文件,忙时价格为1块5毛钱),我将OSS数据内网下载后,走ECS的出带宽下载回我PC本地。本地查看:

爬虫分享风云2号卫星气象照片


原文地址: https://www.opengps.cn/Blog/View.aspx?id=590 文章的更新编辑依此链接为准。欢迎关注源站原创文章!

阅读原文内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯