利用python获取想要搜索的数据-编程学习网

前言

大家在日常生活中经常需要查找不同的事物的相关信息，今天我们利用python来实现这一个小功能，同时呢，也是大家对基础知识的一个综合实践，相信有不少小伙伴已经准备跃跃欲试了，话不多说，开干！

本次爬虫思路

获取url
通过请求拿到响应
处理反爬
修改传递参数
完善程序

urllib库

1.urllib库的介绍

urllib库是Python的标准库，提供了一系列用于操作URL的功能，其大部分功能与requests库类似，也有一些特别的用法。
urllib库是Python标准库提供的一个用户操作URL的模块，Python3把原来Python 2的urilib库和Urllib 2库合并成了一个Urllib库，现在讲解的就是Python3中的Urllib库。

urllib.request——打开和读取URL；

urllib.error——包含Urllib.request各种错误的模块；

urlib.parse——解析URL；

urllib.robotparse——解析网站robots.txt文件。

2.urllib库的使用模板

import urllib.request     
url ='xxxxxxxxxxxx'   
#发送请求                
 request= urllib.request.Request（url，data，header）      
 #得到响应
 response=urllib.request.urlopen（request）
 #解码
 content = response.read().decode() 
 #查看数据
 print(content)

3.使用urllib库获取数据

1. 获取URL：首先使用Chrome浏览器打开某度网页，随便输入一个：xxx,然后打开开发者工具（右键检查），切换到网络界面，清空记录，重新刷新页面，可以看到：

如此这个URL就是我们需要获取的URL：https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=1&tn=baidu&wd=%E6%B3%95%E8%A7%A3%E5%86%B3%E6%96%B9%E6%B3%95&fenlei=256&rsv_pq=0x8dc81b9f001c02d3&rsv_t=1c35crTFwJXLFoeU8nF33RDMyj9nX%2FofGDNqUmHapdGRlUDmKmo7610WDRno****&rqlang=en&rsv_dl=tb&rsv_sug3=7&rsv_enter=0&rsv_btype=i&inputT=2267&rsv_sug4=2878
分析：加粗的这一堆：就是法解决方法这几个关键字；

2.通过请求拿到响应：直接利用模板模拟浏览器发起请求：

突然发现我们没有拿到想要的数据。难道是我们程序写错了吗？

3. 处理反爬:莫急，俗话说人靠衣服马靠鞍，服务器就像大美女，你要打扮的帅帅的，才能获得美女的芳心，当然，这种方法是对于我们人来说的，你可别马上就给电脑喷香水啊，针对程序来说，我们就需要伪装，假装我是一个浏览器，那么，如何伪装呢？我们就需要携带一些参数，先试试这个：
user-agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36（主要是我们电脑浏览器的名称，版本信息），再试一次：

成功“骗”过了服务器，这样就拿到了数据（高兴?）,别着急，我们再思考一下，能不能通过修改一些参数，就让我们想找哪些数据就拿哪些数据，好，接下来我们就分析它的参数：

修改传递参数：

wd：xx，它是这样传递我们输入的文字的，那么我们创造一个字典类型的键值对，发送请求时，再将这个参数拼接上去，这样不就实现了我们的需求嘛（特别注意编解码的问题）

哈哈，这里百度第二个安全验证出来了，根本原因是我们携带的一些参数有问题，因为还有一些参数在变，但是对于我们入门的童鞋处理起来不太友好，所以常用三种方法：
1.将wd后面的参数直接去掉；（成功率不高）
2.去掉HTTPS后面的是s，使用http协议；（成功率不高）
3.使用cookie；（比较稳定）

我选择使用第三种：

这样就利用urllib库实现了这个小功能。别着急，更简单的方法还在后面呢!??

4.urllib库一些个人总结

1. urllib库在处理一些网址的时候比requests库更加快捷；
2. urllib库涉及编解码的问题，必须手动添加；
3. 使用起来代码行数多，比较笨重。
是不是感觉全是缺点，正因如此，我们的requests库应运而生，简单快捷方便，是对它最清晰的写照，更加的人性化，接下来正式介绍这一大杀器，同时也希望大家尽量使用 requests库来写爬虫（真的很好很好很好用！?）。

requests库

5.requests库的介绍

requests库常用有这些功能：
1、Keep-Alive & 连接池
2、国际化域名和 URL
3、带持久 Cookie 的会话
4、自动内容解码
5、优雅的 key/value Cookie
6、Unicode 响应体
7、HTTP(S) 代理支持

6.requests库的使用模板

import requests   
url ='xxxxxxxxxxxx' 
#发送请求                              
response = request.get(url， params，headers)  (get请求或者post请求)  
#根据响应的格式解码，非常智能
response.encoding=response.appareent_encoding

7.使用requests库获取数据

布置爬虫的步骤在urllib库使用的时候已经非常详细的解释了，在此不在赘述，步骤相同，大家可以尝试用模板自己写一下（我个人的代码放在最后了）。如果有哪里不懂得，可以在评论区留言，博主会尽全力解答。

8.requests库一些个人总结

1. requests库步骤简单；
2. 各种操作方法人性化，功能更加强大；
3. requests 库拥有完全自动化 Keep-alive 和 HTTP 连接池的功能,主要是突出Python的优雅二字。

9.个人建议（附代码）

1.部署爬虫时要先思考好大步骤，最好能把步骤写下来，然后一步一步逐步去写代码；
2.再仔细去浏览网页，确然好你爬的信息接口是哪个，是什么类型的请求，参数是什么，是存在网页本身还是二次加载进来的等等，一定要细心认真；
3.处理反爬时一般携带的参数就是：User-Agent，Cookie，Accept，Host，这几个，如果还是拿不到数据，那就是进阶了，暂时先不用管；
4.多观察几次请求，找到规律，实现规模式爬取（这也是爬虫的初心）
5.优化自己的程序，提高效率的同时又要避免被检测出来，多思考就会有灵感。
request库代码：

import requests

data = input('输入你想要查找的数据：').split()

url ='http://www.baidu.com/s'

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36',
    'Cookie': 'BIDUPSID=CDE3B4BEE7AE0D336C4D0734E42BCF8B; PSTM=1664331801; BAIDUID=CDE3B4BEE7AE0D33996D27FED1DDB4DB:FG=1; BD_UPN=12314753; BDUSS=JNdXVzTXMyWmFKM0x1VWJ5eG9GUjg4UmVCRFQxY1dtejBPVDFBfjc0VHhYRnRqRVFBQUFBJCQAAAAAAAAAAAEAAACse3WjanNuZGJpZAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAPHPM2PxzzNjTT; BDUSS_BFESS=JNdXVzTXMyWmFKM0x1VWJ5eG9GUjg4UmVCRFQxY1dtejBPVDFBfjc0VHhYRnRqRVFBQUFBJCQAAAAAAAAAAAEAAACse3WjanNuZGJpZAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAPHPM2PxzzNjTT; newlogin=1; ZFY=utLrULRdQjGdhXHuTriamg7jZ2PZMLmnKmUCBUiVrTw:C; BAIDUID_BFESS=CDE3B4BEE7AE0D33996D27FED1DDB4DB:FG=1; BA_HECTOR=ag04ah242k2l2h0la0010ofe1ho8t901f; BDORZ=FFFB88E999055A3F8A630C64834BD6D0; COOKIE_SESSION=765400_1_9_9_5_15_1_0_9_7_0_0_1292084_0_0_0_1668919087_1669684425_1669684425%7C9%234656831_6_1669684425%7C3; B64_BOT=1; BDRCVFR[7FEYkXni5q3]=mk3SLVN4HKm; BD_HOME=1; H_PS_PSSID=26350; BD_CK_SAM=1; PSINO=3; delPer=1; H_PS_645EC=3d48biiwjEvDlNFtMaUHuepsRu67OxRgPoEiOrMKvfRketUwB4GowDbv4KmDa%2BaTHUgCCoc; baikeVisitId=e1f583c7-eb15-4940-a709-054666f30f48; BDSVRTM=443'
}

data = {
    'wd': data
}
response = requests.get(url=url, params=data, headers=headers)

response.encoding = response.apparent_encoding

print(response.text)

以上就是利用python获取想要搜索的数据的详细内容，更多关于python获取数据的资料请关注编程网其它相关文章！

文章详情

利用python获取想要搜索的数据

目录

前言

本次爬虫思路

urllib库

1.urllib库的介绍

2.urllib库的使用模板

3.使用urllib库获取数据

4.urllib库一些个人总结

requests库

5.requests库的介绍

6.requests库的使用模板

7.使用requests库获取数据

8.requests库一些个人总结

9.个人建议（附代码）

软考中级精品资料免费领

相关文章

猜你喜欢

利用python获取想要搜索的数据

利用Python通过获取剪切板数据实现百度划词搜索功能

Java中documentHelper解析xml获取想要的数据

利用Python实时获取steam特惠游戏数据

如何使用Python通过获取剪切板数据实现百度划词搜索功能

利用Solr实现大规模数据搜索的解决方案（大数据场景下如何使用Solr进行搜索？）

使用python怎么爬取微博的热搜数据

Python脚本开发漏洞的批量搜索与利用(GlassFish 任意文件读取)

Python利用PyQt5制作一个获取网络实时数据NBA数据播报GUI功能

node.js利用mongoose获取mongodb数据的格式化问题详解

教你利用python如何读取txt中的数据

利用java如何实现获取redis数据库的日志信息

python调用接口获取数据的方法是什么

Python利用PyQt5制作一个获取网络实时NBA数据并播报的GUI程序

利用Elasticsearch实现大规模分布式搜索的解决方案（大规模数据下如何应用Elasticsearch进行分布式搜索？）

教你如何使用Python快速爬取需要的数据

利用Python爬虫爬取金融期货数据的案例分析

如何利用Python提取pdf中的表格数据(附实战案例)

PHP cURL库进阶指南：探索数据爬取、API调用和动态内容获取的艺术

怎么用Python中的PyQt5制作一个获取网络实时数据NBA数据播报GUI功能