当前位置：首页 > ds >正文

Puppeteer 浏览器自动化操作工具

ds 2025/9/1 20:32:06

pyppeteer 是 Python 版本的 Puppeteer，而 Puppeteer 是由 Google 开发的一个 Node.js 库，用于控制 Chrome 或 Chromium 浏览器。pyppeteer 允许你通过 Python 代码自动化操作浏览器，实现网页爬取、自动化测试、生成截图或 PDF 等功能。

核心功能

网页自动化操作：模拟用户在浏览器中的各种行为（点击、输入、滚动等）。
网页内容爬取：获取动态渲染的网页内容（如 JavaScript 加载的数据）。
生成截图/PDF：将网页保存为图片或 PDF 文件。
性能分析：分析网页加载性能，生成性能报告。
自动化测试：模拟用户交互，测试网页功能。

与其他工具的对比

工具	语言	特点
Selenium	多语言	需要浏览器驱动（如 ChromeDriver），功能全面但配置复杂。
BeautifulSoup	Python	仅处理静态 HTML，无法解析动态内容。
Scrapy	Python	高效的爬虫框架，但无法处理 JavaScript 渲染的内容。
pyppeteer	Python	直接控制浏览器，无需额外驱动，适合处理复杂动态页面。

基本使用流程

1. 安装

pip install pyppeteer

首次运行时，pyppeteer 会自动下载 Chromium 浏览器（约 100MB）。

2. 简单示例：打开网页并截图

import asyncio
from pyppeteer import launchasync def main():# 启动浏览器browser = await launch()# 创建新页面page = await browser.newPage()# 导航到目标 URLawait page.goto('https://example.com')# 截图await page.screenshot({'path': 'example.png'})# 关闭浏览器await browser.close()# 运行异步函数
asyncio.get_event_loop().run_until_complete(main())

3. 示例：爬取动态内容

import asyncio
from pyppeteer import launchasync def main():browser = await launch()page = await browser.newPage()await page.goto('https://example.com')# 等待特定元素加载完成await page.waitForSelector('.dynamic-content')# 获取元素文本content = await page.querySelectorEval('.dynamic-content', 'el => el.textContent')print(content)await browser.close()asyncio.get_event_loop().run_until_complete(main())

高级用法

1. 模拟用户交互

# 点击按钮
await page.click('button.login')# 输入文本
await page.type('input[name="username"]', 'your_username')# 提交表单
await page.keyboard.press('Enter')

2. 处理弹窗

page.on('dialog', lambda dialog: asyncio.ensure_future(handle_dialog(dialog)))async def handle_dialog(dialog):print(dialog.message)await dialog.accept()  # 或 .dismiss()

3. 执行 JavaScript 代码

# 执行 JS 函数
result = await page.evaluate('() => window.innerWidth')
print(f"浏览器宽度: {result}px")# 获取元素属性
attr = await page.querySelectorEval('img', 'el => el.src')

4. 生成 PDF

await page.pdf({'path': 'page.pdf', 'format': 'A4'})

注意事项

异步编程：pyppeteer 基于 asyncio，所有操作都是异步的，需熟悉 async/await 语法。
性能考虑：启动浏览器开销较大，建议批量处理任务。
反爬机制：频繁请求可能触发网站反爬策略，可设置随机 User-Agent 或延时。
资源释放：确保调用 browser.close() 释放浏览器资源。

应用场景

网页爬虫：抓取动态渲染的内容（如单页应用）。
自动化测试：模拟用户行为，测试网站功能。
生成报告：将网页内容导出为 PDF 或图片。
监控网站：定期检查网站内容变化。
性能优化：分析页面加载时间，识别性能瓶颈。