文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

Python爬虫基础之selenium库怎么用

2023-06-15 05:24

关注

小编给大家分享一下Python爬虫基础之selenium库怎么用,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!

一、selenium简介

官网

Python爬虫基础之selenium库怎么用

总的来说: selenium库主要用来做浏览器的自动化脚本库。

二、selenium基本用法

from selenium import webdriverurl = 'http://www.baidu.com'# 将webdriver实例化path = 'C:\Program Files (x86)\Python38-32\chromedriver.exe'browser = webdriver.Chrome(executable_path = path)# 用谷歌浏览器访问百度 r = browser.get(url)with open ('test.txt','wb+') as f:    f.write(r.content)

三、常用用法

'''代码功能:selenium是的常用用法时间:@Date: 2021-05-22 21:37:05'''from selenium import webdriver# 导入Options类from selenium.webdriver.chrome.options import Optionsurl = "https://movie.douban.com/"# Options的实例化chrome_options = Options()# 设置浏览器参数# --headless 是不显示浏览器启动以及执行过程chrome_options.add_argument('--headless')# 设置lang和User-Agent信息,防止反爬检测chrome_options.add_argument('lang=zh_CN.utf-8')UserAgent = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36'chrome_options.add_argument('User-Agent='+UserAgent)# 启动浏览器并设置chrome_options参数driver = webdriver.Chrome(chrome_options=chrome_options)# 设置浏览器窗口最大化# driver.maximize_window()# # 设置浏览器窗口最小化# driver.minimize_window()driver.get(url)# 获取网页的标题print(driver.title)# page_source是获取网页的HTML代码print(driver.page_source)

四、cookie的设置、获取与删除

from selenium import webdriverimport time# 启动浏览器driver = webdriver.Chrome()driver.get('https://www.youdao.com')time.sleep(5)# 添加cookiedriver.add_cookie({'name':'login','value':'登录'})# 获取全部cookieallCookies = driver.get_cookies()print('全部cookies',allCookies)# 获取name为login的cookiecookie = driver.get_cookie('login')print('name为login的cookie',cookie)# 删除单个cookiedriver.delete_cookie('login')print("\n--------------剩余的cookies\n",driver.get_cookies())# 删除全部cookiesdriver.delete_all_cookies()print("-------------剩余的cookies------------\n",driver.get_cookies())time.sleep(60)

五、文件的上传与下载 文件上传upload

<!DOCTYPE html><html lang="en"><head>    <meta charset="UTF-8">    <meta http-equiv="X-UA-Compatible" content="IE=edge">    <meta name="viewport" content="width=device-width, initial-scale=1.0">    <title>Document</title></head><body>    <h2>配合selenium模拟上传文件</h2>    <input type='file' name='file' /></body></html>
'''代码功能:selenium上传文件 --配合upload.html使用时间:@Date: 2021-05-23 09:56:53'''from selenium import webdriverimport timedriver = webdriver.Chrome()url = 'http://localhost:52330/selenium/upload.html'driver.get(url)ele = driver.find_element_by_name('file')print("获取到的元素",ele)# 注意路径不能有中文字符ele.send_keys('D:\dcsdk_eventv3.db')time.sleep(10)

下载文件

'''代码功能:模拟文件下载时间:@Date: 2021-05-23 10:21:28'''from selenium import webdriverimport time# 设置文件保存路径,如果不设置,会默认保存到Downloads文件夹options = webdriver.ChromeOptions()prefs = {'download.default_directory':'D:\\'}options.add_experimental_option('prefs',prefs)# 启动浏览器driver = webdriver.Chrome()# 下载PC版微信driver.get('https://pc.weixin.qq.com')# 浏览器窗口最大化driver.maximize_window()time.sleep(5)# 点击下载按钮driver.find_element_by_class_name('download-button').click()time.sleep(30)

六、窗口的切换

from selenium import webdriverimport timeurl = 'https://www.baidu.com/'driver = webdriver.Chrome()# 隐式等待,一次设置对整个driver的周期都起作用driver.implicitly_wait(30)driver.get(url)# 使用js开启新的窗口js = 'window.open("https://www.sogou.com/")'driver.execute_script(js)# 获取当前显示的窗口信息current_window = driver.current_window_handleprint(driver)# 获取浏览器的全部窗口信息handles = driver.window_handlesprint('获取到的窗口全部信息\n------------------\n',handles)'''获取到的窗口全部信息------------------ ['CDwindow-7FB808B4F24EF5385A9AFBDC21FA13B9', 'CDwindow-E879C0A64E734C3F88468A4388F48E3B']'''# 设置延时看切换的效果time.sleep(3)# 根据窗口信息进行窗口切换# 切换到百度搜索的窗口driver.switch_to_window(handles[0])time.sleep(3)# 切换到搜狗窗口driver.switch_to_window(handles[1])

七、项目实战

'''代码功能:熟悉selenium的自动化操作时间:2020/5/22'''from selenium import webdriverfrom selenium.webdriver.common.keys import Keysimport time# Keys 类中定义了很多快捷键url = 'https://wwww.baidu.com'path = 'C:\Program Files (x86)\Python38-32\chromedriver.exe'driver = webdriver.Chrome(executable_path=path)driver.get(url)# 获取输入框标签对象element = driver.find_element_by_id('kw')# 输入框输入内容element.send_keys('python你')time.sleep(2)# 删除最后一个文字element.send_keys(Keys.BACK_SPACE)time.sleep(2)# 添加空格加教程element.send_keys(Keys.SPACE)element.send_keys("教程")time.sleep(2)# ctrl+a 全选输入框内容element.send_keys(Keys.CONTROL, 'a')time.sleep(2)# ctrl+x 剪切输入框内容element.send_keys(Keys.CONTROL, 'x')time.sleep(2)# ctrl+v 复制element.send_keys(Keys.CONTROL, 'v')time.sleep(2)# 回车键driver.find_element_by_id('su').send_keys(Keys.ENTER)time.sleep(10)

Python的优点有哪些

1、简单易用,与C/C++、Java、C# 等传统语言相比,Python对代码格式的要求没有那么严格;2、Python属于开源的,所有人都可以看到源代码,并且可以被移植在许多平台上使用;3、Python面向对象,能够支持面向过程编程,也支持面向对象编程;4、Python是一种解释性语言,Python写的程序不需要编译成二进制代码,可以直接从源代码运行程序;5、Python功能强大,拥有的模块众多,基本能够实现所有的常见功能。

以上是“Python爬虫基础之selenium库怎么用”这篇文章的所有内容,感谢各位的阅读!相信大家都有了一定的了解,希望分享的内容对大家有所帮助,如果还想学习更多知识,欢迎关注编程网行业资讯频道!

阅读原文内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     801人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     348人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     311人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     432人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     220人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯