文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

01_爬虫的基本概念和流程

2023-01-31 00:52

关注

为什么我们要学习爬虫?学习爬虫有什么意义?

  • 进行数据分析,可以爬取网站上面的数据,来进行数据分析
  • 我们现在身处大数据时代,大数据的数据是怎么来的?
    • 爬虫来获取(方法之一)
      • 比如微博的微指数可以看热词的趋势
    • 从官方下载
      • 利用爬虫下载
    • 买数据
    • 很多网页会通过cookie来获取用户的浏览信息,然后保存到后台形成大数据
  • 学完爬虫把爬取到的内容直接呈现出来
    • 做成新闻网页等等
    • 视频网页等等
    • 音乐app网页等
  • 其他用途
    • 12306抢票
    • 微信公众号的爬取
    • 短信轰炸
    • 网络上的投票

爬虫的定义是什么呢?

  • 网络爬虫又叫网页蜘蛛,网络机器人
    • 模仿客户端发送网络请求,接受请求响应
    • 按照一定的规则,自动地抓取互联网信息的程序
    • 原则上,只要是浏览器能做的事,爬虫都能做
  • 爬虫一般分为哪几类?
    • 通用爬虫
      • 搜素引擎的爬虫
    • 聚焦爬虫
      • 针对特定引擎特定网站的爬虫
      • 我们重点写的是聚焦爬虫

爬虫的合法性

  • 什么是robots协议?
    • 通过网站的robots协议告诉搜索引擎哪些网页可以抓取哪些不可以抓取
    • 一般在当前网站的根目录里的/robots.txt
    • 是道德层面上的,如果爬取的数据只是个人使用,那还好
      • 不过最好还是遵守
  • 如果是个人分析所用,不泄漏转载 合法
  • 如果是真实数据,比如营业地址,电话清单等, 合法
    • 但如果是黑客手段获取的某公司人员的个人信息,这个不好了
  • 如果是原创作品,最好不要转载

聚焦爬虫的基本流程是什么?

  • 首先准备我们要提取的url_list
    • 然后我们发送请求获取响应
    • 从响应里面提取我们要的数据
      • 把数据提取出来
      • 把下一步要进行发送请求的url提取出来
        • 重复1-3
    • 把数据保存到数据库,或者导出为csv等格式的文件
阅读原文内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯