当前位置: 首页 > ops >正文

Python Selenium 使用指南

Selenium 是一个用于自动化 Web 浏览器交互的强大工具,常用于网页测试、数据抓取和自动化任务。以下是 Python 中 Selenium 的详细使用说明。

安装 Selenium

首先需要安装 Selenium 库和浏览器驱动:

pip install selenium

然后下载对应浏览器的驱动:

  • Chrome: ChromeDriver

  • Firefox: GeckoDriver

  • Edge: EdgeDriver

将驱动放在系统 PATH 路径中,或指定驱动路径。

基本使用

启动浏览器

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys# 使用 Chrome 浏览器
driver = webdriver.Chrome()  # 或指定路径 webdriver.Chrome('/path/to/chromedriver')# 使用 Firefox
# driver = webdriver.Firefox()# 访问网页
driver.get("https://www.google.com")

常用操作

# 查找元素
search_box = driver.find_element(By.NAME, "q")  # 通过name属性查找# 输入内容
search_box.send_keys("Python Selenium")# 模拟按键
search_box.send_keys(Keys.RETURN)  # 回车# 点击元素
button = driver.find_element(By.CSS_SELECTOR, "input[type='submit']")
button.click()# 获取元素属性
print(button.get_attribute("value"))# 获取文本内容
print(driver.find_element(By.TAG_NAME, "h1").text)# 执行JavaScript
driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")# 等待(隐式等待)
driver.implicitly_wait(10)  # 最多等待10秒# 显式等待
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as ECelement = WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.ID, "myDynamicElement"))
)

选择元素的方式

# 通过ID
driver.find_element(By.ID, "id_name")# 通过name属性
driver.find_element(By.NAME, "name")# 通过XPath
driver.find_element(By.XPATH, "//input[@name='q']")# 通过链接文本
driver.find_element(By.LINK_TEXT, "Continue")# 通过部分链接文本
driver.find_element(By.PARTIAL_LINK_TEXT, "Conti")# 通过标签名
driver.find_element(By.TAG_NAME, "h1")# 通过类名
driver.find_element(By.CLASS_NAME, "content")# 通过CSS选择器
driver.find_element(By.CSS_SELECTOR, "p.content")

高级功能

处理弹窗和警告

# 获取并接受alert
alert = driver.switch_to.alert
print(alert.text)
alert.accept()# 取消alert
alert.dismiss()# 在prompt中输入文本
alert.send_keys("text")
alert.accept()

切换窗口和iframe

# 获取当前所有窗口句柄
all_handles = driver.window_handles# 切换到新窗口
driver.switch_to.window(all_handles[1])# 切换回原窗口
driver.switch_to.window(all_handles[0])# 切换到iframe
iframe = driver.find_element(By.TAG_NAME, "iframe")
driver.switch_to.frame(iframe)# 切回主文档
driver.switch_to.default_content()

处理下拉选择框

from selenium.webdriver.support.ui import Selectselect = Select(driver.find_element(By.ID, "dropdown"))# 通过可见文本选择
select.select_by_visible_text("Option 1")# 通过value属性选择
select.select_by_value("1")# 通过索引选择
select.select_by_index(0)

浏览器操作

# 前进和后退
driver.forward()
driver.back()# 刷新页面
driver.refresh()# 获取当前URL
print(driver.current_url)# 获取页面标题
print(driver.title)# 获取页面源代码
print(driver.page_source)# 设置窗口大小
driver.set_window_size(1024, 768)# 最大化窗口
driver.maximize_window()# 最小化窗口
driver.minimize_window()# 全屏
driver.fullscreen_window()

截图和保存

# 截屏保存
driver.save_screenshot("screenshot.png")# 获取元素截图
element = driver.find_element(By.TAG_NAME, "h1")
element.screenshot("element.png")

使用Cookies

# 获取所有cookies
print(driver.get_cookies())# 添加cookie
driver.add_cookie({"name": "test", "value": "123"})# 获取指定cookie
print(driver.get_cookie("test"))# 删除cookie
driver.delete_cookie("test")# 删除所有cookies
driver.delete_all_cookies()

无头模式

无头模式运行浏览器,不显示GUI界面:

from selenium.webdriver.chrome.options import Optionsoptions = Options()
options.add_argument("--headless")  # 启用无头模式
options.add_argument("--disable-gpu")  # 禁用GPU加速driver = webdriver.Chrome(options=options)

关闭浏览器

# 关闭当前窗口
driver.close()# 关闭所有窗口并退出浏览器
driver.quit()  # 推荐使用,确保释放资源

实际示例:自动登录网站

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
import time# 初始化浏览器
driver = webdriver.Chrome()try:# 打开登录页面driver.get("https://example.com/login")# 输入用户名和密码username = driver.find_element(By.ID, "username")password = driver.find_element(By.ID, "password")username.send_keys("your_username")password.send_keys("your_password")# 提交表单password.send_keys(Keys.RETURN)# 等待登录完成time.sleep(2)# 验证是否登录成功if "Dashboard" in driver.title:print("登录成功!")else:print("登录失败")finally:# 关闭浏览器driver.quit()

注意事项

  1. 元素定位:确保使用稳定的定位方式,避免使用可能变化的XPath

  2. 等待机制:合理使用隐式和显式等待,避免硬性等待(time.sleep)

  3. 异常处理:添加try-except块处理可能的异常

  4. 资源释放:始终在finally块中调用driver.quit()释放资源

  5. 反爬措施:部分网站有反爬机制,需合理设置请求间隔和User-Agent

http://www.xdnf.cn/news/7550.html

相关文章:

  • 第九节第二部分:常用API:Object类、包装类
  • LLM笔记(十)vLLM(1)PagedAttention论文笔记
  • ubuntu18.04安装nerfstudio
  • DataBinding深度解析:从编译原理到抖音级性能优化
  • window 显示驱动开发-准备 DMA 缓冲区
  • 关于 APK 反编译与重构工具集
  • 【HTML-3】HTML 中的水平线与换行:基础元素详解
  • React表单开发的瑞士军刀:Formik与Yup实战指南
  • [luogu12541] [APIO2025] Hack! - 交互 - 构造 - 数论 - BSGS
  • 线上jvm假死问题排查
  • 内存分页法
  • 前端小demo项目实战<京东秒杀Tab栏切换、进度条控制和成绩管理表单>
  • 代码随想录算法训练营 Day52 图论Ⅲ 岛屿问题Ⅱ 面积 孤岛 水流 造岛
  • 软考中级-软件设计师 UML图详解( 类图,对象图,用例图,序列图,通信图,状态图,活动图,构件图,部署图)
  • 【每天一个MCP】【记录向】:准备工作,创建github项目
  • 武汉副市长李湛莅临指导 珈和展会精彩亮相引《武汉电视台》深度报道 以硬核科技赋能农业强链新范式获政府媒体“双重点赞”
  • 【老马】流程引擎(Process Engine)概览
  • LLM | 论文精读 | NAACL 2025 | Clarify When Necessary:教语言模型何时该“问一句”再答!
  • HarmonyOS5云服务技术分享--认证文档问题
  • 清华大学无人机城市空间导航探索!CityNavAgent:基于层次语义规划与全局记忆的空中视觉语言导航
  • 开疆智能Profinet转ModbusTCP网关连接BORUNTE伯朗特系统配置案例
  • Django基础(一)MVT 模式与 Django 框架
  • 北斗导航 | 基于matlab的多波束技术的卫星通信系统性能仿真
  • python自学笔记5 函数
  • 正则表达式进阶(三):递归模式与条件匹配的艺术
  • 【北邮通信系统建模与仿真simulink笔记】(1)主要用到的模块库介绍
  • 【MySQL】04.数据类型
  • 计算机组成与体系结构:RAM(随机存取存储器)
  • c/c++的opencv均值模糊
  • 微软账户无密码化的取证影响