文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

Selenium webdriver的无头模式(headless)可能导致cookies内容缺失,以及解决措施

2023-09-03 09:37

关注

无头模式(headless)是selenium的webdriver浏览器驱动的一项功能,允许浏览器不出现而仍可访问网页,并与之交互,这对于运行自动化测试或网络抓包大有用处,因为运行速度更快、占用资源更少。

但是笔者发现在无头模式下运行时,浏览器访问某些网站产生的cookies内容可能与在正常模式(非无头模式)下略有不同。因为某些网站使用技术来检测是否被无头浏览器访问,并可能通过设定不同的 cookie 或以其他方式表现不同来做出响应。

为了说明这种差异,我们可以使用 Python 中的 Selenium WebDriver 库运行一个简单的实验。 首先,我们将创建两个 Chrome 浏览器实例——一个在无头模式下,另一个在正常模式下:

from time import sleepfrom selenium import webdriverfrom selenium.webdriver.chrome.options import Options# 初始化无头模式(headless)的webdriveroptions = Options()options.add_argument('--headless')driver_headless = webdriver.Chrome(options=options)# 设置window.navigator.webdriver为falsedriver_headless.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {"source": "Object.defineProperty(navigator, 'webdriver', {get: () => False}) "})# 打开一个网站,输出cookiesdriver_headless.get('http://。。。。。。')sleep(3)cookies_headless = driver_headless.get_cookies()keys_headless = set([cookie['name'] for cookie in cookies_headless])driver_headless.quit()# 初始化正常模式的webdriveroptions2 = Options()# 取消chrome受自动控制提示options2.add_experimental_option('useAutomationExtension', False)options2.add_experimental_option('excludeSwitches', ['enable-automation'])driver_normal = webdriver.Chrome(options=options2)# 设置window.navigator.webdriver为falsedriver_normal.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {"source": "Object.defineProperty(navigator, 'webdriver', {get: () => False}) "})# 打开同一个网站,输出cookiesdriver_normal.get('http://。。。。。。')sleep(3)cookies_normal = driver_normal.get_cookies()keys_normal = set([cookie['name'] for cookie in cookies_normal])driver_normal.quit()# 两相比较keys_only_in_headless = keys_headless - keys_normalkeys_only_in_normal = keys_normal - keys_headlessif keys_only_in_headless:    print(f'无头模式(headless)多出来的Cookie名称是: {keys_only_in_headless}')if keys_only_in_normal:    print(f'正常模式多出来的Cookie名称是: {keys_only_in_normal}')if not keys_only_in_headless and not keys_only_in_normal:    print('无头模式和正常模式的cookies都一样。')

运行结果截图:

我测试了分别采用无头模式和正常模式访问同一个网站的链接,得出的cookies不一样。无头模式情况下的cookies比正常模式缺失两项内容:AlteonP、JSessionID。

我后续的操作是需要把selenium的cookies内容导出至requests库的session使用,若使用无头模式下的cookie,再用requests库的get、post访问该网站时都报错(status_code会出现400、403、412等非正常代码)。

众所周知requests库的get、post访问一个网站链接获取得到的cookies内容本来就稀缺,只有selenium的webdriver打开网站才能得到丰富的cookies,因此要从selenium的cookies导出cookies给requests库使用是非常有必要的。要让selenium的无头模式也能获取正常模式的cookies,下面是我的两个解决思路:

1、添加user-agent

在options那几行里插入下面两行代码:

user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36'options.add_argument(f'user-agent={user_agent}')

也许大家和我一样都觉得Selenium的webdriver已经自动附带user-agent而不需要重复添加。但意想不到的是,无头模式访问某些网站,网站仍会检测到selenium是在做爬虫动作,故给出的cookies内容少之又少,跟requests的get获取的cookies相差无几。所以在尝试手动添加user-agent后,无头模式获取的cookies内容变得丰富起来,这个办法看似老土,但非常管用。

2、设置浏览器窗口大小

如果第一个解决方法行不通,可试试设置浏览器窗口大小,尽管无头模式下浏览器是无形的,但也许通过设置窗口大小可以瞒过某些网站的检测。

options.add_argument("--window-size=1920,1050") 

接下来就可以导出Selenium的cookies给requests使用了。

from requests.cookies import RequestsCookieJarcookies = driver.get_cookies()jar = RequestsCookieJar()for cookie in cookies:    jar.set(cookie['name'], cookie['value'])se = requests.Session()se.cookies = jarse.headers.update({'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36'})res = se.get('http://。。。。。。', headers=headers)assert res.status_code==200res.encoding = 'utf-8'print(res.text)

来源地址:https://blog.csdn.net/Scott0902/article/details/129384085

阅读原文内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯