文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

python爬虫的常见方式

2023-01-31 06:03

关注
  1. requests+bs4+lxml直接获取并解析html数据

  2. 抓包ajax请求,使用requests获取并解析json数据

  3. 反爬严重的网站,使用selenium爬取

  4. 设置代理

  5.     a.urllib/requests/selenium+chrome/selenium+phantomjs设置代理

        b.爬取免费代理网站中的免费代理IP存入redis做代理池,并定期提取检测(访问目标网站),使用flask搭建网站,从redis返回随机代理IP(不适合商用)

        c.多台ADSL拨号主机安装tinyproxy做代理,定时拨号获取自己的IP存入远程redis做代理池,使用flask搭建网站,从redis返回随机代理IP(爬取天眼查/IT桔子/搜狗微信)

        d.收费代理IP(爬取天眼查/IT桔子/搜狗微信)

  6. cookie池

  7. 爬取APP:

        a.charles/fiddler/wireshark/mitmproxy/anyproxy抓包,appium自动化爬取APP

        b.mitmdump对接python脚本直接处理,appium自动化爬取APP

  8. pyspider框架爬取

  9. scrapy/scrapy-redis/scrapyd框架分布式爬取

  10. 验证码:

        a.极验验证:selenium呼出验证码图案、截图,PIL对比色差、算出位置,selenium匀加速+匀减速模拟人类拖动并验证

        b.微博手机版:selenium呼出验证码图案、截图,制作图像模板,selenium呼出验证码图案、截图,使用PIL将截图与图像模板对比色差,匹配成功后按照模板名字中的数字顺序使用selenium进行拖动并验证

        c.接入打码平台,selenium呼出验证码图案、截图,发送到打码平台,平台返回坐标,selenium移动到坐标并点击并验证


阅读原文内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯