短信预约-IT技能免费直播动态提醒

短信预约提醒成功

python爬虫的常见方式

2023-01-31 06:03

关注

requests+bs4+lxml直接获取并解析html数据
抓包ajax请求，使用requests获取并解析json数据
反爬严重的网站，使用selenium爬取
设置代理

a.urllib/requests/selenium+chrome/selenium+phantomjs设置代理

b.爬取免费代理网站中的免费代理IP存入redis做代理池，并定期提取检测（访问目标网站），使用flask搭建网站，从redis返回随机代理IP（不适合商用）

c.多台ADSL拨号主机安装tinyproxy做代理，定时拨号获取自己的IP存入远程redis做代理池，使用flask搭建网站，从redis返回随机代理IP（爬取天眼查/IT桔子/搜狗微信）

d.收费代理IP（爬取天眼查/IT桔子/搜狗微信）

cookie池
爬取APP：
a.charles/fiddler/wireshark/mitmproxy/anyproxy抓包，appium自动化爬取APP
b.mitmdump对接python脚本直接处理，appium自动化爬取APP
pyspider框架爬取
scrapy/scrapy-redis/scrapyd框架分布式爬取
验证码：
a.极验验证：selenium呼出验证码图案、截图，PIL对比色差、算出位置，selenium匀加速+匀减速模拟人类拖动并验证
b.微博手机版：selenium呼出验证码图案、截图，制作图像模板，selenium呼出验证码图案、截图，使用PIL将截图与图像模板对比色差，匹配成功后按照模板名字中的数字顺序使用selenium进行拖动并验证
c.接入打码平台，selenium呼出验证码图案、截图，发送到打码平台，平台返回坐标，selenium移动到坐标并点击并验证

阅读原文内容投诉

免责声明：

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的，并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据，供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

历年真题答案解析
备考技巧名师总结
高频考点精准押题

资料下载
历年真题

2024上半年软考中级软件测评师考试基础知识真题
193.9 KB下载数265
2024上半年软考中级软件设计师考试基础知识真题
191.63 KB下载数245
2023下半年-系统集成项目管理工程师-真题考点汇总（完整版）
143.91 KB下载数1148
2023年下半年系统集成项目管理工程师第一、二、三批次真题考点整理(考友回忆版)
183.71 KB下载数642
2023年上半年软考中级《系统集成项目管理工程师》-基础知识-考试真题及答案
644.84 KB下载数2756

2024年上半年信息系统项目管理师第二批次真题及答案解析（完整版）
难度 813人已做
查看
【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析
难度 354人已做
查看
【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析
难度 318人已做
查看
2024年上半年软考高项第一、二批次真题考点汇总（完整版）
难度 435人已做
查看
2024年上半年系统架构设计师考试综合知识真题
难度 224人已做
查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机

python爬虫的常见方式

后端开发2023-01-31

网络爬虫的常见方式

后端开发2023-06-20

python爬虫常见面试题（一）

后端开发2023-01-30

爬虫中常见的反爬虫策略有哪些

后端开发2023-06-20

常见的反爬虫和应对方法

后端开发2023-01-30

【Python3爬虫】常见反爬虫措施及解

后端开发2023-01-30

Python中爬虫编程的常见问题及解决方案

后端开发2023-10-22

Python中常见的网络爬虫问题及解决方案

后端开发2023-10-22

盘点Python 爬虫中的常见加密算法

后端开发2024-04-02

Python爬虫中常见的加密算法有哪些

后端开发2023-07-02

盘点 90% Python 爬虫中的常见加密算法

后端开发2023-05-14

Python爬虫中使用代理IP的常见方案有哪些

后端开发2023-06-15

爬虫笔记1：Python爬虫常用库

后端开发2023-01-31

python爬虫抓取时常见的小问题总结

后端开发2024-04-02

常见的反爬虫urllib技术分享

后端开发2024-04-02

python爬虫beautiful soup的使用方式

后端开发2024-04-02

常见的反爬虫机制有哪些

后端开发2023-06-20

python爬虫常用模块

后端开发2023-01-30

爬虫中常见的采集数据方法有哪些

后端开发2023-06-20

Python爬虫教程-34-分布式爬虫介

后端开发2023-01-30

位置：首页-资讯-后端开发

咦！没有更多了？去看看其它编程学习网内容吧