短信预约-IT技能免费直播动态提醒

短信预约提醒成功

01_爬虫的基本概念和流程

2023-01-31 00:52

关注

为什么我们要学习爬虫？学习爬虫有什么意义？

进行数据分析，可以爬取网站上面的数据，来进行数据分析
我们现在身处大数据时代，大数据的数据是怎么来的？
- 爬虫来获取（方法之一）
  - 比如微博的微指数可以看热词的趋势
- 从官方下载
  - 利用爬虫下载
- 买数据
- 很多网页会通过cookie来获取用户的浏览信息，然后保存到后台形成大数据
学完爬虫把爬取到的内容直接呈现出来
- 做成新闻网页等等
- 视频网页等等
- 音乐app网页等
其他用途
- 12306抢票
- 微信公众号的爬取
- 短信轰炸
- 网络上的投票

爬虫的定义是什么呢？

网络爬虫又叫网页蜘蛛，网络机器人
- 模仿客户端发送网络请求，接受请求响应
- 按照一定的规则，自动地抓取互联网信息的程序
- 原则上，只要是浏览器能做的事，爬虫都能做
爬虫一般分为哪几类？
- 通用爬虫
  - 搜素引擎的爬虫
- 聚焦爬虫
  - 针对特定引擎特定网站的爬虫
  - 我们重点写的是聚焦爬虫

爬虫的合法性

什么是robots协议？
- 通过网站的robots协议告诉搜索引擎哪些网页可以抓取哪些不可以抓取
- 一般在当前网站的根目录里的/robots.txt
- 是道德层面上的，如果爬取的数据只是个人使用，那还好
  - 不过最好还是遵守
如果是个人分析所用，不泄漏转载合法
如果是真实数据，比如营业地址，电话清单等，合法
- 但如果是黑客手段获取的某公司人员的个人信息，这个不好了
如果是原创作品，最好不要转载

聚焦爬虫的基本流程是什么？

首先准备我们要提取的url_list
- 然后我们发送请求获取响应
- 从响应里面提取我们要的数据
  - 把数据提取出来
  - 把下一步要进行发送请求的url提取出来
    - 重复1-3
- 把数据保存到数据库，或者导出为csv等格式的文件

阅读原文内容投诉

免责声明：

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的，并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据，供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

历年真题答案解析
备考技巧名师总结
高频考点精准押题

资料下载
历年真题

2024上半年软考中级软件测评师考试基础知识真题
193.9 KB下载数265
2024上半年软考中级软件设计师考试基础知识真题
191.63 KB下载数245
2023下半年-系统集成项目管理工程师-真题考点汇总（完整版）
143.91 KB下载数1148
2023年下半年系统集成项目管理工程师第一、二、三批次真题考点整理(考友回忆版)
183.71 KB下载数642
2023年上半年软考中级《系统集成项目管理工程师》-基础知识-考试真题及答案
644.84 KB下载数2756

2024年上半年信息系统项目管理师第二批次真题及答案解析（完整版）
难度 813人已做
查看
【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析
难度 354人已做
查看
【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析
难度 318人已做
查看
2024年上半年软考高项第一、二批次真题考点汇总（完整版）
难度 435人已做
查看
2024年上半年系统架构设计师考试综合知识真题
难度 224人已做
查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机

01_爬虫的基本概念和流程

后端开发2023-01-31

入门指南：掌握Go语言实现爬虫的基本概念

入门指南：掌握Go语言实现爬虫的基本概念

后端开发2024-01-30

介绍GitLab流程的基本概念和工作原理

后端开发2023-10-22

Python爬虫必须掌握的概念—Cookie和Session

后端开发 Cookie和Session2024-12-03

RBO和CBO的基本概念

后端开发2024-04-02

Nginx的基本概念和原理

后端开发2024-04-02

MySQL的基本概念和作用

后端开发2024-04-02

Java的对象和类基本概念

后端开发2023-06-02

Golang数组的基本概念和定义

Golang数组的基本概念和定义

后端开发2024-03-03

云计算的概念和基本原理

后端开发2023-06-03

MySQL的基本概念和常用命令

后端开发2024-04-02

基于线程、并发的基本概念(详解)

后端开发2023-05-31

C语言基本概念宏定义中的#和##教程

后端开发2023-05-18

Nginx的基本概念和原理是什么

后端开发2023-06-29

Python爬虫之BeautifulSoup的基本使用教程

后端开发2024-04-02

详解OpenCV图像的概念和基本操作

后端开发2024-04-02

vuex的核心概念和基本使用详解

后端开发2024-04-02

Java设计模式的基本概念和分类

后端开发2023-06-16

java类和对象的基本概念是什么

后端开发2023-09-16

C/C++程序设计的基本概念详解

后端开发2024-04-02

位置：首页-资讯-后端开发

咦！没有更多了？去看看其它编程学习网内容吧