【爬虫】DrissionPage-6
官方文档:
https://www.drissionpage.cn/browser_control/visit
https://www.drissionpage.cn/browser_control/page_operation
1. Tab 对象概述
Tab 对象 是 DrissionPage 中用于控制浏览器标签页的主要单位。每个 Tab 对象对应一个浏览器标签页,负责执行各种网页操作,如页面跳转、元素管理、执行脚本等。
2. 页面跳转
Tab 对象提供了多种方法来控制页面的跳转和导航。
📌 get()
get()
方法用于跳转到指定的网址,支持访问本地文件路径,并内置了重试机制以应对连接失败的情况。
参数说明:
参数名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
url | str | 必填 | 目标 URL,可以是网页地址或本地文件路径。 |
show_errmsg | bool | False | 连接出错时是否显示和抛出异常。 |
retry | int | None | 重试次数。如果为 None ,则使用页面参数,默认值为 3 。 |
interval | float | None | 重试间隔(秒)。如果为 None ,则使用页面参数,默认值为 2 。 |
timeout | float | None | 加载超时时间(秒)。如果未指定,则使用 ChromiumPage 的 timeouts 属性中的 page_load 值。 |
params | dict | None | URL 请求参数(仅在 s 模式下有效)。 |
data | dict / str | None | 携带的数据。 |
json | dict / str | None | 要发送的 JSON 数据,会自动设置 Content-Type 为 application/json 。 |
headers | dict | None | 请求头。 |
cookies | dict / CookieJar | None | Cookies 信息。 |
files | Any | None | 要上传的文件,可以是字典,键为文件名,值为文件对象或文件路径。 |
auth | Any | None | 身份认证信息。 |
allow_redirects | bool | True | 是否允许重定向。 |
proxies | dict | None | 代理信息。 |
hooks | Any | None | 回调方法。 |
stream | bool | None | 是否使用流式传输。 |
verify | bool / str | None | 是否验证 SSL 证书。 |
cert | str / Tuple[str, str] | None | SSL 客户端证书文件的路径(.pem 格式),或 ('cert', 'key') 元组。 |
返回类型:bool
说明:返回访问是否成功。
示例:
from DrissionPage import Chromiumtab = Chromium().latest_tab
success = tab.get('https://www.example.com')
print(success) # 输出: True 或 False
📌 back()
back()
方法用于在浏览历史中后退若干步。
参数:
参数名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
steps | int | 1 | 后退步数。 |
返回类型:None
示例:
tab.back(2) # 后退两个网页
📌 forward()
forward()
方法用于在浏览历史中前进若干步。
参数:
参数名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
steps | int | 1 | 前进步数。 |
返回类型:None
示例:
tab.forward(2) # 前进两步
📌 refresh()
refresh()
方法用于刷新当前页面。
参数:
参数名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
ignore_cache | bool | False | 刷新时是否忽略缓存。 |
返回类型:None
示例:
tab.refresh() # 刷新页面
📌 stop_loading()
stop_loading()
方法用于强制停止当前页面加载。
参数:无
返回类型:None
📌 set.blocked_urls()
set.blocked_urls()
方法用于设置忽略的连接。
参数:
参数名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
urls | str / list / tuple / None | 必填 | 要忽略的 URL,可以传入多个,可用 * 通配符,传入 None 时清空已设置的项。 |
返回类型:None
示例:
tab.set.blocked_urls('*.css*') # 设置不加载 CSS 文件
3. 元素管理
📌 add_ele()
add_ele()
方法用于创建一个新元素,并可选择是否将其插入到 DOM 中。
参数:
参数名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
html_or_info | str / Tuple[str, dict] | 必填 | 新元素的 HTML 文本或信息。如果为 tuple ,则可以新建不添加到 DOM 的元素。 |
insert_to | str / ChromiumElement / Tuple[str, str] | None | 插入到哪个元素中,可以接收元素对象和定位符。如果为 None ,且 html_or_info 是 str ,则添加到 body ,否则不添加到 DOM。 |
before | str / ChromiumElement / Tuple[str, str] | None | 在哪个子节点前面插入,可以接收对象和定位符,为 None 时插入到父元素末尾。 |
返回类型:ChromiumElement
说明:新建的元素对象。
示例:
from DrissionPage import Chromiumtab = Chromium().latest_tab
tab.get('https://www.baidu.com')
html = '<a href="http://DrissionPage.cn" target="blank">DrissionPage </a> '
ele = tab.add_ele(html, '#s-top-left', '新闻') # 插入到导航栏
ele.click()
添加一个不可见的元素:
from DrissionPage import Chromiumtab = Chromium().latest_tab
info = ('a', {'innerText': 'DrissionPage', 'href': 'http://DrissionPage.cn', 'target': 'blank'})
ele = tab.add_ele(info)
ele.click('js') # 需用 JS 点击
📌 remove_ele()
remove_ele()
方法用于从页面上删除一个元素。
参数:
参数名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
loc_or_ele | str / Tuple[str, str] / ChromiumElement | 必填 | 要删除的元素,可以是元素或定位符。 |
返回类型:None
示例:
# 删除一个已获得的元素
ele = tab('tag:a')
tab.remove_ele(ele)# 删除用定位符找到的元素
tab.remove_ele('tag:a')
4. 执行脚本或命令
📌 run_js()
run_js()
方法用于执行 JavaScript 脚本。
参数:
参数名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
script | str | 必填 | JavaScript 脚本文本或脚本文件路径。 |
*args | - | 无 | 传入的参数,按顺序在 JS 文本中对应 arguments[0] 、arguments[1] … |
as_expr | bool | False | 是否作为表达式运行,为 True 时 args 参数无效。 |
timetout | float | None | JS 超时时间(秒),为 None 则使用页面 timeouts.script 设置。 |
返回类型:Any
说明:脚本执行结果。
示例:
# 用传入参数的方式执行 JS 脚本,显示弹出框显示 Hello world!
tab.run_js('alert(arguments[0]+arguments[1]);', 'Hello', ' world!')
注意:
- 如果
as_expr
为True
,脚本应是返回一个结果的形式,并且不能有return
。 - 如果
as_expr
不为True
,脚本应尽量写成一个方法。
📌 run_js_loaded()
run_js_loaded()
方法用于运行 JavaScript 脚本,执行前等待页面加载完毕。
参数:与 run_js()
方法相同。
返回类型:Any
说明:脚本执行结果。
📌 run_async_js()
run_async_js()
方法用于以异步方式执行 JavaScript 代码。
参数:
参数名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
script | str | 必填 | JavaScript 脚本文本。 |
*args | - | 无 | 传入的参数,按顺序在 JS 文本中对应 arguments[0] 、arguments[1] … |
as_expr | bool | False | 是否作为表达式运行,为 True 时 args 参数无效。 |
返回类型:None
📌 run_cdp()
run_cdp()
方法用于执行 Chrome DevTools Protocol 语句。
参数:
参数名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
cmd | str | 必填 | 协议项目。 |
**cmd_args | - | 无 | 项目参数。 |
返回类型:dict
说明:执行返回的结果。
示例:
# 停止页面加载
tab.run_cdp('Page.stopLoading')
📌 run_cdp_loaded()
run_cdp_loaded()
方法用于执行 Chrome DevTools Protocol 语句,执行前先确保页面加载完毕。
参数:与 run_cdp()
方法相同。
返回类型:dict
说明:执行返回的结果。
5. Cookies 及缓存
📌 set.cookies()
set.cookies()
方法用于设置 Cookie,可以设置一个或多个。
参数:
参数名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
cookies | Cookie / CookieJar / list / tuple / str / dict | 必填 | Cookies 信息。 |
返回类型:None
示例:
# 可以接受多种类型的参数
cookies1 = ['name1=value1', 'name2=value2']
cookies2 = 'name1=value1; name2=value2; path=/; domain=.example.com;'
cookies3 = {'name1': 'value1', 'name2': 'value2', 'domain': '.example.com'}
tab.set.cookies(cookies1)
📌 set.cookies.clear()
set.cookies.clear()
方法用于清除所有 Cookie。
参数:无
返回类型:None
📌 set.cookies.remove()
set.cookies.remove()
方法用于删除一个 Cookie。
参数:
参数名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
name | str | 必填 | Cookie 的 name 字段。 |
url | str | None | Cookie 的 url 字段。 |
domain | str | None | Cookie 的 domain 字段。 |
path | str | None | Cookie 的 path 字段。 |
返回类型:None
📌 set.session_storage()
set.session_storage()
方法用于设置或删除某项 sessionStorage
信息。
参数:
参数名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
item | str | 必填 | 要设置的项。 |
value | str / False | 必填 | 为 False 时,删除该项。 |
返回类型:None
示例:
tab.set.session_storage(item='abc', value='123')
📌 set.local_storage()
set.local_storage()
方法用于设置或删除某项 localStorage
信息。
参数:
参数名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
item | str | 必填 | 要设置的项。 |
value | str / False | 必填 | 为 False 时,删除该项。 |
返回类型:None
📌 clear_cache()
clear_cache()
方法用于清除缓存,可选择要清除的项。
参数:
参数名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
session_storage | bool | True | 是否清除 sessionStorage 。 |
local_storage | bool | True | 是否清除 localStorage 。 |
cache | bool | True | 是否清除 cache 。 |
cookies | bool | True | 是否清除 cookies 。 |
返回类型:None
示例:
tab.clear_cache(cookies=False) # 除了 cookies,其它都清除
6. 运行参数设置
📌 set.retry_times()
set.retry_times()
方法用于设置连接失败时重连次数。
参数:
参数名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
times | int | 必填 | 次数。 |
返回类型:None
📌 set.retry_interval()
set.retry_interval()
方法用于设置连接失败时重连间隔。
参数:
参数名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
interval | float | 必填 | 秒数。 |
返回类型:None
📌 set.timeouts()
set.timeouts()
方法用于设置三种超时时间,单位为秒。可单独设置,为 None
表示不改变原来设置。
参数:
参数名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
base | float | None | 整体超时时间。 |
page_load | float | None | 页面加载超时时间。 |
script | float | None | 脚本运行超时时间。 |
返回类型:None
示例:
tab.set.timeouts(base=10, page_load=30)
📌 set.load_mode
set.load_mode
属性用于设置页面加载策略,调用其方法选择某种策略。
方法:
方法名称 | 参数 | 说明 |
---|---|---|
normal() | 无 | 等待页面完全加载完成,为默认状态。 |
eager() | 无 | 等待文档加载完成就结束,不等待资源加载。 |
none() | 无 | 页面连接完成就结束。 |
示例:
tab.set.load_mode.normal()
tab.set.load_mode.eager()
tab.set.load_mode.none()
📌 set.user_agent()
set.user_agent()
方法用于为浏览器当前标签页设置 user agent
。
参数:
参数名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
ua | str | 必填 | user agent 字符串。 |
platform | str | None | 平台类型,如 'android' 。 |
返回类型:None
📌 set.headers()
set.headers()
方法用于设置额外添加到当前页面请求 headers
的参数。
参数:
参数名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
headers | dict / str | 必填 | headers 信息。 |
返回类型:None
示例:
# dict 格式
h = {'connection': 'keep-alive', 'accept-charset': 'GB2312,utf-8;q=0.7,*;q=0.7'}
tab.set.headers(headers=h)# 文本格式
h = '''connection: keep-alive
accept-charset: GB2312,utf-8;q=0.7,*;q=0.7'''
tab.set.headers(headers=h)
7. 窗口管理
📌 set.window.max()
set.window.max()
方法用于使窗口最大化。
参数:无
返回类型:None
示例:
tab.set.window.max()
📌 set.window.mini()
set.window.mini()
方法用于使窗口最小化。
参数:无
返回类型:None
📌 set.window.full()
set.window.full()
方法用于使窗口切换到全屏模式。
参数:无
返回类型:None
📌 set.window.normal()
set.window.normal()
方法用于使窗口切换到普通模式。
参数:无
返回类型:None
📌 set.window.size()
set.window.size()
方法用于设置窗口大小。只传入一个参数时,另一个参数不会变化。
参数:
参数名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
width | int | None | 窗口宽度。 |
height | int | None | 窗口高度。 |
返回类型:None
示例:
tab.set.window.size(500, 500)
📌 set.window.location()
set.window.location()
方法用于设置窗口位置。只传入一个参数时,另一个参数不会变化。
参数:
参数名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
x | int | None | 距离顶部距离。 |
y | int | None | 距离左边距离。 |
返回类型:None
示例:
tab.set.window.location(500, 500)
📌 set.window.hide()
set.window.hide()
方法用于隐藏浏览器窗口。
注意:
- 这个方法直接隐藏浏览器进程,在任务栏上也会消失。仅支持 Windows 系统,并且必须已安装
pypiwin32
库才可使用。 - 窗口隐藏后,如果有新窗口出现,整个浏览器又会显现出来。
参数:无
返回类型:None
示例:
tab.set.window.hide()
注意:
- 浏览器隐藏后并没有关闭,下次运行程序还会接管已隐藏的浏览器。
- 浏览器隐藏后,如果有新建标签页,会自行显示出来。
📌 set.window.show()
set.window.show()
方法用于显示当前浏览器窗口。
参数:无
返回类型:None
8. 页面滚动
📌 scroll() / scroll.down()
scroll()
和 scroll.down()
方法用于使页面向下滚动若干像素,水平位置不变。
参数:
参数名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
pixel | int | 必填 | 滚动的像素。 |
返回类型:ChromiumTab
/ MixTab
/ ChromiumFrame
说明:返回页面对象自身。
📌 scroll.up()
scroll.up()
方法用于使页面向上滚动若干像素,水平位置不变。
参数:
参数名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
pixel | int | 必填 | 滚动的像素。 |
返回类型:ChromiumTab
/ MixTab
/ ChromiumFrame
说明:返回页面对象自身。
示例:
tab.scroll.up(30)
📌 scroll.right()
scroll.right()
方法用于使页面向右滚动若干像素,垂直位置不变。
参数:
参数名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
pixel | int | 必填 | 滚动的像素。 |
返回类型:ChromiumTab
/ MixTab
/ ChromiumFrame
说明:返回页面对象自身。
📌 scroll.left()
scroll.left()
方法用于使页面向左滚动若干像素,垂直位置不变。
参数:
参数名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
pixel | int | 必填 | 滚动的像素。 |
返回类型:ChromiumTab
/ MixTab
/ ChromiumFrame
说明:返回页面对象自身。
📌 scroll.to_top()
scroll.to_top()
方法用于滚动页面到顶部,水平位置不变。
参数:无
返回类型:ChromiumTab
/ MixTab
/ ChromiumFrame
说明:返回页面对象自身。
示例:
tab.scroll.to_top()
📌 scroll.to_bottom()
scroll.to_bottom()
方法用于滚动页面到底部,水平位置不变。
参数:无
返回类型:ChromiumTab
/ MixTab
/ ChromiumFrame
说明:返回页面对象自身。
📌 scroll.to_half()
scroll.to_half()
方法用于滚动页面到垂直中间位置,水平位置不变。
参数:无
返回类型:ChromiumTab
/ MixTab
/ ChromianFrame
说明:返回页面对象自身。
📌 scroll.to_rightmost()
scroll.to_rightmost()
方法用于滚动页面到最右边,垂直位置不变。
参数:无
返回类型:ChromiumTab
/ MixTab
/ ChromiumFrame
说明:返回页面对象自身。
📌 scroll.to_leftmost()
scroll.to_leftmost()
方法用于滚动页面到最左边,垂直位置不变。
参数:无
返回类型:ChromiumTab
/ MixTab
/ ChromiumFrame
说明:返回页面对象自身。
📌 scroll.to_location()
scroll.to_location()
方法用于滚动页面到指定位置。
参数:
参数名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
x | int | 必填 | 水平位置,单位是像素。 |
y | int | 必填 | 垂直位置,单位是像素。 |
返回类型:ChromiumTab
/ MixTab
/ ChromiumFrame
说明:返回页面对象自身。
示例:
tab.scroll.to_location(300, 50)
📌 scroll.to_see()
scroll.to_see()
方法用于滚动页面直到元素可见。
参数:
参数名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
loc_or_ele | str / tuple / ChromiumElement | 必填 | 元素的定位信息,可以是元素、定位符。 |
center | bool / None | None | 是否尽量滚动到页面正中,为 None 时如果被遮挡,则滚动到页面正中。 |
返回类型:ChromiumTab
/ MixTab
/ ChromiumFrame
说明:返回页面对象自身。
示例:
# 滚动到某个已获得到的元素
ele = tab.ele('tag:div')
tab.scroll.to_see(ele)# 滚动到按定位符查找到的元素
tab.scroll.to_see('tag:div')
9. 滚动设置
📌 set.scroll.smooth()
set.scroll.smooth()
方法设置网站是否开启平滑滚动。建议用此方法为网页关闭平滑滚动。
参数:
参数名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
on_off | bool | True | bool 表示开或关。 |
返回类型:None
示例:
tab.set.scroll.smooth(on_off=False)
📌 set.scroll.wait_complete()
set.scroll.wait_complete()
方法用于设置滚动后是否等待滚动结束。在不想关闭网页平滑滚动功能时,可开启此设置以保障滚动结束后才执行后面的步骤。
参数:
参数名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
on_off | bool | True | bool 表示开或关。 |
返回类型:None
示例:
tab.set.scroll.wait_complete(on_off=True)
10. 弹出消息处理
📌 handle_alert()
handle_alert()
方法用于处理提示框。它能够设置等待时间,等待提示框出现才进行处理,若超时没等到提示框,返回 False
。也可以只获取提示框文本而不处理提示框。还可以处理下一个出现的提示框,这在处理离开页面时触发的弹窗非常有用。
参数:
参数名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
accept | bool / None | True | True 表示确认,False 表示取消,None 不会按按钮但依然返回文本值。 |
send | str | None | 处理 prompt 提示框时可输入文本。 |
timeout | float | None | 等待提示框出现的超时时间(秒),为 None 时使用页面整体超时时间。 |
next_one | bool | False | 是否处理下一个出现的弹窗,为 True 时 timeout 参数无效。 |
返回类型:str
/ False
说明:提示框内容文本,未等到提示框则返回 False
。
示例:
# 确认提示框并获取提示框文本
txt = tab.handle_alert()# 点击取消
tab.handle_alert(accept=False)# 给 `prompt` 提示框输入文本并点击确定
tab.handle_alert(accept=True, send='some text')# 不处理提示框,只获取提示框文本
txt = tab.handle_alert(accept=None)
📌 自动处理
标签页对象 可使用 set.auto_handle_alert()
方法设置自动处理该 tab
的提示框,使提示框不会弹窗而直接被处理掉。
参数:
参数名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
on_off | bool | True | 开或关。 |
accept | bool | True | 确定还是取消。 |
返回类型:None
示例:
from DrissionPage import Chromiumtab = Chromium().latest_tab
tab.set.auto_handle_alert() # 这之后出现的弹窗都会自动确认
全局自动处理:
如果需要设置所有标签页都自动处理 alert
,可用 Chromium
对象进行设置。
from DrissionPage import Chromiumbrowser = Chromium()
browser.set.auto_handle_alert()
或者
from DrissionPage import Chromiumtab = Chromium().latest_tab
tab.browser.set.auto_handle_alert()
11. 关闭及重连
📌 disconnect()
disconnect()
方法用于页面对象断开与页面的连接,但不关闭标签页。断开后,对象不能对标签页进行操作。Tab
和 ChromiumFrame
对象都有此方法。
参数:无
返回类型:None
📌 reconnect()
reconnect()
方法用于关闭与页面连接,然后重建一个新连接。这主要用于应付长期运行导致内存占用过高,断开连接可释放内存,然后重连继续控制浏览器。Tab
和 ChromiumFrame
对象都有此方法。
参数:
参数名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
wait | float | 0 | 关闭后等待多少秒再连接。 |
返回类型:None
📌 close()
close()
方法用于关闭标签页。可关闭自己或自己以外的。
参数:
参数名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
others | bool | False | 是否关闭自己以外的标签页。 |
session | bool | False | 是否同时关闭内置 Session 对象,只对自己有效。 |
返回类型:None