文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

Python爬虫基础入门实例分析

2023-06-27 10:46

关注

这篇文章主要介绍“Python爬虫基础入门实例分析”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“Python爬虫基础入门实例分析”文章能帮助大家解决问题。

       首先,屏幕前的小伙伴们需要先安装 requests 库,安装之前需先安装好 Python 环境,如未安装,小编在这给小伙伴们提供最新的 Python 编译器安装教程:Python 最新 3.9.0 编译器安装教程。

       安装好 Python 环境后,windows 用户打开 cmd 命令输入以下命令即可(其余系统安装大致相同)。

 pip install requests

       Linux 用户:

 sudo pip install requests

       接下来就是实例讲解啦,小伙伴们多多动手操练呐!

1、爬取百度首页页面,并获取页面信息

实例

# 爬取百度页面 

import requests #导入requests爬虫库

resp = requests.get('http://www.baidu.com') #生成一个response对象

resp.encoding = 'utf-8' #设置编码格式为 utf-8

print(resp.status_code) #打印状态码

print(resp.text) #输出爬取的信息

2、requests 库 get 方法实例

       在此之前先给大家介绍一个网址:httpbin.org,这个网站能测试 HTTP 请求和响应的各种信息,比如 cookie、ip、headers 和登录验证等,且支持 GET、POST 等多种方法,对 web 开发和测试很有帮助。它用 Python + Flask 编写,是一个开源项目。

官方网站:http://httpbin.org/

开源地址:https://github.com/Runscope/httpbin

实例

# get方法实例

import requests #导入requests爬虫库

resp5、爬取网页图片,并保存到本地。5、爬取网页图片,并保存到本地。 = requests.get("http://httpbin.org/get")  #get方法

print( resp.status_code ) #打印状态码

print( resp.text ) #输出爬取的信息

3、requests 库 post 方法实例

实例

# post方法实例

import requests #导入requests爬虫库

resp = requests.post("http://httpbin.org/post")  #post方法

print( resp.status_code ) #打印状态码

print( resp.text ) #输出爬取的信息

4、requests库 put 方法实例

实例

# put方法实例

import requests #导入requests爬虫库

resp = requests.put("http://httpbin.org/put")  # put方法

print( resp.status_code ) #打印状态码

print( resp.text ) #输出爬取的信息

5、requests 库 get 方法传参

想要使用 get 方法传递参数,有两种方法可行:

  1. 在 get 方法之后加上要传递的参数用“=”号链接并用“&”符号隔开;

  2. 使用 params 字典传递多个参数。实例如下:

实例

# get传参方法实例1

import requests #导入requests爬虫库

resp = requests.get("http://httpbin.org/get?name=w3cschool&age=100")  # get传参

print( resp.status_code ) #打印状态码

print( resp.text ) #输出爬取的信息

实例

# get传参方法实例2

import requests #导入requests爬虫库

data = {

"name":"w3cschool",

"age":100

} #使用字典存储传递参数

resp = requests.get( "http://httpbin.org/get" , params=data )  # get传参

print( resp.status_code ) #打印状态码

print( resp.text ) #输出爬取的信息

6、requests 库 post 方法传参

       使用 post 方法传递参数和使用 get 方法传递参数的方法二是类似的。实例如下:

实例

# post传参方法实例

import requests #导入requests爬虫库

data = {

"name":"w3cschool",

"age":100

} #使用字典存储传递参数

resp = requests.post( "http://httpbin.org/post" , params=data )  # post传参

print( resp.status_code ) #打印状态码

print( resp.text ) #输出爬取的信息

7、如何绕过各大网站的反爬虫措施,以猫眼票房为例:

实例

import requests  #导入requests爬虫库

url = 'http://piaofang.maoyan.com/dashboard' #猫眼票房网址地址

headers = {

 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'

} #设置头部信息,伪装浏览器

resp = requests.get(url, headers=headers) #

print(resp.status_code) #打印状态码

print(resp.text) #网页信息

8、爬取网页图片,并保存到本地。

       先在E盘建立一个爬虫目录,才能够保存信息,小伙伴们可自行选择目录保存,在代码中更改相应目录代码即可。

实例

import requests #导入requests爬虫库

headers = {

 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'

} #设置头部信息,伪装浏览器

resp = requests.get('https://file.lsjlt.com/upload/202306/27/wlmx5zq3yjv.png', headers = headers)  #get方法的到图片响应

file = open("E:\\爬虫\\test.png","wb") #打开一个文件,wb表示以二进制格式打开一个文件只用于写入

file.write(resp.content) #写入文件

file.close() #关闭文件操作

关于“Python爬虫基础入门实例分析”的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识,可以关注编程网行业资讯频道,小编每天都会为大家更新不同的知识点。

阅读原文内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     801人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     348人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     311人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     432人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     220人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯