当前位置: 首页 > ops >正文

Selenium的driver.get_url 和 手动输入网址, 并点击的操作,有什么不同?

我在搞爬取的时候,发现有些网站直接用driver.get(url) 跳转到目标特定的网址的时候,会被强制跳转到其他的网址上,但是如果是自己手动,在网址栏那里输入网址,并点回车,却能完成跳转。

这是在使用 Selenium 进行自动化测试或爬虫时,driver.get(url)手动输入网址并回车/点击 在操作流程上有本质区别,主要体现在 浏览器行为、触发事件、性能及稳定性 等方面。

以下是详细对比:


1. driver.get(url) 的原理与特点

  • 直接导航
    Selenium 通过浏览器驱动(如ChromeDriver)直接向浏览器发送导航命令,跳过地址栏输入,类似代码层面的 window.location.href = url
  • 不触发页面加载事件
    部分浏览器可能不会完全模拟手动输入时的完整生命周期事件(如 beforeunload)。
  • 速度快
    无需模拟键盘输入和回车操作,直接加载目标页面。
  • 无地址栏历史记录(部分浏览器):
    某些情况下,浏览器地址栏的历史记录可能不会更新(取决于驱动实现)。

示例代码:

from selenium import webdriver
driver = webdriver.Chrome()
driver.get("https://www.example.com")  # 直接导航

2. 手动输入网址并回车/点击的特点

  • 完整模拟用户行为
    1. 聚焦地址栏 → 2. 输入字符 → 3. 回车或点击“前往”按钮。
  • 触发完整事件链
    包括 keydown/keyupchangesubmit 等事件,可能影响页面加载逻辑(尤其是依赖地址栏监听的网站)。
  • 性能较慢
    需要逐字符输入,受键盘延迟影响。
  • 历史记录可靠
    地址栏历史记录一定会更新。

3. 关键差异对比

对比项driver.get(url)手动输入网址+回车/点击
触发事件仅触发基本导航事件触发完整键盘/地址栏事件链
速度快(直接跳转)慢(需模拟输入和回车)
浏览器历史记录可能不更新(因驱动实现而异)一定更新
兼容性所有网站通用需定位地址栏元素(可能因浏览器而异)
适用场景常规爬虫/测试测试地址栏相关功能(如输入建议)

4. 解决方法

  • 4.1 优先使用 driver.get(url)

    如果是经常需要连接某个网站的话,就时不时清空页面吧。

    driver.get("about:blank")  # 先清空页面
    # 再手动输入网址(确保历史记录生成)
    
  • 4.2 手动输入场景
    如果 driver.get(url)搞不定,可能存在下面的原因:

    • 测试地址栏的输入提示、历史记录功能。
    • 某些网站通过JavaScript监听地址栏输入(罕见)。
    • 某些动态网站单页应用(SPA)依赖 hashchangepopstate 事件

这个时候可以采用JavaScript 执行导航 :

from selenium import webdriver
import time# 初始化 WebDriver(以 Chrome 为例)
driver = webdriver.Chrome()# 使用 JavaScript 执行导航
driver.execute_script("window.location.href = 'https://www.example.com';")# 等待页面加载(根据需要可以添加显式等待)
time.sleep(5)# 关闭浏览器
driver.quit()

PS:
由于浏览器的地址栏无法通过常规的 HTML 元素来定位,如标签名、CSS 选择器等来操作。

所以使用selenium的find_element ,是没有办法直接定位到网址栏,这种操作是不太可行的。

错误的演示例:

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import time# 初始化 WebDriver(以 Chrome 为例)
driver = webdriver.Chrome()# 找到地址栏(通常可以通过标签名或特定的 CSS 选择器定位)
address_bar = driver.find_element_by_tag_name("input") #在这里,chrome是无法对地址栏做定位的# 清空地址栏(可选,确保地址栏为空)
address_bar.clear()# 输入网址
address_bar.send_keys("https://www.example.com")# 模拟按下回车键
address_bar.send_keys(Keys.RETURN)# 等待页面加载(根据需要可以添加显式等待)
time.sleep(5)# 关闭浏览器
driver.quit()

这是因为地址栏是浏览器的一部分,而不是网页内容的一部分。

因此,Selenium 无法直接与地址栏交互。

如果需要更多绕开检测的方法,可以参考这个文章:Selenium模拟人类行为,操作网页的方法(全)

http://www.xdnf.cn/news/4467.html

相关文章:

  • WD1016 升压转换器性能特点及应用场景分析
  • C++_MD5算法
  • python+pytest接口自动化测试--日志记录
  • Linux cp 目录A所有内容到目录B
  • 深入探索Linux命名管道(FIFO):原理、实践与高级技巧
  • 【上位机——MFC】对话框
  • C25-数组应用及练习
  • DHCP理解
  • 在scala中,转换算子和行动算子有什么区别
  • 39.电气连接口与隔离舱设计
  • 【学习笔记】机器学习(Machine Learning) | 第五章(4)| 分类与逻辑回归
  • 在线PDF阅读方案:jQuery + PDF.js
  • K8S 基于本地存储的持久卷
  • 《Python星球日记》 第44天: 线性回归与逻辑回归
  • 猫咪如厕检测与分类识别系统系列~进阶【一】视频流推流及网页实时展示
  • 电脑桌面悬浮窗便签,好用的电脑桌面便签工具
  • Android Studio根目录下创建多个可运行的模块
  • ESP32-S3 I2S音频开发实战指南
  • Nginx性能调优与深度监控
  • html css js网页制作成品——HTML+CSS珠海网页设计网页设计(4页)附源码
  • LVGL-对象 lv_obj_t
  • FAISS(Facebook AI Similarity Search)
  • STM32基础教程——软件SPI
  • 高效C/C++之七:Coverity修复问题: 打印函数切记对应类型 和 判定非空指针变量后使用
  • eFish-SBC-RK3576工控板外部RTC测试操作指南
  • 【工具变量】最新华证ESG评级得分数据-含xlsx及dta格式(2009-2024.12)
  • vscode预览模式(点击文件时默认覆盖当前标签,标签名称显示为斜体,可通过双击该标签取消)覆盖标签、新窗打开
  • 用 CodyBuddy 帮我写自动化运维脚本
  • 易基因:中山大学凌文华团队DNA甲基化研究揭示血管衰老与动脉粥样硬化的表观调控机制|项目文章
  • Debezium BinaryLogClient详解