当前位置: 首页 > news >正文

基于Node+HeadlessBrowser的浏览器自动化方案

基于Node+HeadlessBrowser的浏览器自动化方案

什么是无头浏览器(Headless Browser)?

无头浏览器,就像是一个没有用户界面的浏览器程序。你可以想象它就是一个“隐形”的浏览器,只不过它没有图形界面,但能做我们用普通浏览器所能做的大部分事情,比如打开网页、执行 JavaScript、进行页面互动等。无头浏览器最常用的场景就是在自动化测试、网页抓取、服务器上执行任务等不需要用户界面的场合。

使用无头浏览器,你无需打开真正的浏览器窗口就可以让程序去浏览网页、录制操作、生成截图等等,特别适合那些需要在没有人手动操作的情况下处理网页内容的任务。

特性PlaywrightPuppeteerSeleniumPhantomJS
支持浏览器Chromium, Firefox, WebKitChromium所有主流浏览器已内置 WebKit
平台支持Windows, Mac, LinuxWindows, Mac, LinuxWindows, Mac, LinuxWindows, Mac, Linux
多浏览器支持
API 现代性现代且易用现代且易用较复杂,学习曲线陡峭较简单
开发活跃度活跃且增长快活跃非常活跃已停止维护
适用场景自动化测试、爬虫、跨浏览器兼容性测试浏览器自动化测试和爬虫复杂测试流程静态网页抓取
启动速度较慢
资源占用
文档和社区支持良好优秀广泛限制, 文档停滞
  • Playwright:适合需要多浏览器支持的项目,API 现代且跨平台,对新功能的支持很快。
  • Puppeteer:专注于 Chromium,适合简单的自动化测试和爬虫任务。
  • Selenium:对于复杂的跨浏览器测试任务是很好的选择,但需要较多的配置和学习。
  • PhantomJS:虽然轻量且快速,但由于停止维护,而其使用逐渐减少,不建议用于新项目。

一、依赖安装

以下用Playwright为例,实现几个模拟浏览器操作的案例

// 安装无头浏览器依赖
npm i playwright --save
// 安装浏览器内核
npx playwright install

二、具体自动化操作

ScreenHotUtils.js提供了三个案例方法

  • 对目标网页进行截取
  • 获取目标页面的大标题
  • 获取目标页面Window对象的任意属性
// 注入chromium内核
const { chromium } = require('playwright');/*** 异步暂停方法* @param {number} delay - 时长(以毫秒为单位)* @returns {Promise<void>}*/
const sleep = delay => new Promise(resolve => setTimeout(resolve, delay));/*** 网页截屏方法* @param {string} webPageUrl - 目标网页地址* @param {number} loadDelay - 网页加载延时(以毫秒为单位)* @param {number} width - 浏览器宽度* @param {number} height - 浏览器高度* @param {boolean} fullPage - 是否进行全屏长截图* @returns {Promise<Buffer>} - 截图图像的Buffer*/
const captureWebPageScreenshot = async (webPageUrl,loadDelay = 1000,width = 1980,height = 1024,fullPage = false
) => {// 创建浏览器对象const browser = await chromium.launch();// 创建一个新的页面const page = await browser.newPage({viewport: {width,height,},});// 跳转到目标页await page.goto(webPageUrl);// 等待页面加载完成await page.waitForLoadState('load');// 页面加载延时await sleep(loadDelay);// 截图,并获取一个Bufferconst screenFileBuffer = await page.screenshot({ fullPage });// 关闭浏览器await browser.close();return screenFileBuffer;
};/*** 获取网页标题* @param {string} webPageUrl - 目标网页地址* @param {number} loadDelay - 网页加载延时(以毫秒为单位)* @returns {Promise<string>} - 网页标题*/
const getWebPageTitle = async (webPageUrl, loadDelay = 1000) => {// 创建浏览器对象const browser = await chromium.launch();const page = await browser.newPage();await page.goto(webPageUrl);await page.waitForLoadState('load');await sleep(loadDelay);// 获取页面标题const title = await page.title();await browser.close();return title;
};/*** 获取Window属性* @param {string} webPageUrl - 目标网页地址* @param {string[]} propertyNames - 要获取的属性名称列表* @returns {Promise<string>} - 获取的属性值*/
const getWindowProperty = async (webPageUrl, propertyNames) => {const browser = await chromium.launch();const page = await browser.newPage();await page.goto(webPageUrl);await page.waitForLoadState('load');// 使用 evaluate 在页面上下文中运行脚本const propertyValue = await page.evaluate(propertyNames => {const result = propertyNames.reduce((pre, prop) => {pre = pre[prop];return pre;}, window);return result;}, propertyNames);await browser.close();return propertyValue;
};module.exports = {getWebPageTitle,getWindowProperty,captureWebPageScreenshot,
};

三、执行测试

const {getWebPageTitle,captureWebPageScreenshot,getWindowProperty,
} = require('./ScreenHotUtils');
const fs = require('fs');
const path = require('path');(async () => {const webPageUrl = `http://www.baidu.com`;//   执行截图动作const fileBuffer = await captureWebPageScreenshot(webPageUrl);// 写入本地 | 上传OSS | 其他fs.writeFileSync(path.resolve(__dirname, './screenShot.png'), fileBuffer);//   获取页面标题const pageTitle = await getWebPageTitle(webPageUrl);console.log('PageTitle', pageTitle); // 百度一下 你就知道// 获取页面cookieconst cookie = await getWindowProperty(webPageUrl, ['document', 'cookie']);console.log('Cookie:', cookie); // cookie......
})();

效果:
在这里插入图片描述
就这样,我们可以轻松获得一个页面截图,通过代码就能在不打开浏览器的情况下获取到网页的图像,来实现一些自动化巡检&截图工具。

http://www.xdnf.cn/news/135361.html

相关文章:

  • MCP协议:AI与工具无缝连接的“万能插头“及最佳实践指南
  • 2.1java基础语法
  • Cancer Cell发表医学AI综述,聚焦于人工智能与转化癌症研究的交叉领域
  • Pandas中的日期时间date处理
  • Python-Agent调用多个Server-FastAPI版本
  • 融合注意力机制和BiGRU的电力领域发电量预测项目研究,并给出相关代码
  • 代码随想录打卡|Day27(合并区间、单调递增的数字、监控二叉树)
  • 精益数据分析(24/126):聚焦第一关键指标,驱动创业成功
  • Java 安全:如何实现用户认证与授权?
  • 如何在JDK17项目中改成1.8
  • JDBC 批处理与事务处理:提升数据操作效率与一致性的密钥
  • Spring的xxxAware接口工作原理-笔记
  • 时间序列预测模型比较分析:SARIMAX、RNN、LSTM、Prophet 及 Transformer
  • 深入剖析扣子智能体的工作流与实战案例
  • 【MySQL】MySQL索引与事务
  • cuda 安装两个版本
  • 【使用层次序列构建二叉树(数据结构C)】
  • 探秘 3D 展厅之卓越优势,解锁沉浸式体验新境界
  • 零基础上手Python数据分析 (23):NumPy 数值计算基础 - 数据分析的加速“引擎”
  • Vue3实现高仿word自定义颜色选择器组件(支持 v-model)
  • 哈工大李治军《操作系统》进程同步与信号量笔记
  • iOS/Flutter混合开发之PlatformView配置与使用
  • 第12章 微调生成模型
  • 实时交互式AIGC系统开发:打造多模态数字人全栈解决方案
  • 41.缺失的第一个正数(java)
  • jQuery AJAX、Axios与Fetch
  • YOLO12架构优化——引入多维协作注意力机制(MCAM)抑制背景干扰,强化多尺度与小目标检测性能
  • 深入理解指针(4)
  • Centos7.2安装Xmap
  • 【git#4】分支管理 -- 知识补充