当前位置：首页 > backend >正文

PHP编写图书信息爬虫程序

backend 2025/8/28 11:29:41

最近闲来无事，有个朋友问我他在用PHP写一个抓取图书信息的爬虫程序出现了一些BUG，想要让我看下帮他修改，无奈写的语法太过复杂凌乱，索性我重头再来，直接用自己的方式写了一篇给他一些思路做参考。

在这里插入图片描述

以下是一个使用PHP编写的简单图书信息爬虫示例，使用 GuzzleHttp 发送HTTP请求和 Symfony DomCrawler 解析HTML内容：

<?php
require 'vendor/autoload.php';use GuzzleHttp\Client;
use Symfony\Component\DomCrawler\Crawler;// 创建HTTP客户端
$client = new Client(['headers' => ['User-Agent' => 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36']
]);// 存储结果的CSV文件
$csvFile = fopen('books.csv', 'w');
fputcsv($csvFile, ['书名', '作者', '价格', '评分', '简介']);// 示例：爬取豆瓣读书的编程类书籍（实际使用时请遵守网站规则）
$baseUrl = 'https://book.douban.com/tag/编程?start=%d';for ($page = 0; $page < 3; $page += 20) { // 爬取3页try {$response = $client->get(sprintf($baseUrl, $page));$html = (string)$response->getBody();$crawler = new Crawler($html);// 提取图书信息$crawler->filter('li.subject-item')->each(function (Crawler $node) use ($csvFile) {$title = $node->filter('h2 a')->text();$info = $node->filter('.pub')->text();$rating = $node->filter('.rating_nums')->text('暂无评分');$desc = $node->filter('.info p')->text('暂无简介');// 清理数据$info = trim(str_replace(["\n", " "], "", $info));list($author, $publisher, $price) = explode('/', $info, 3) + ['', '', ''];fputcsv($csvFile, [trim($title),trim($author),trim($price),trim($rating),trim($desc)]);});echo "已抓取第 ".($page/20+1)." 页数据\n";sleep(1); // 遵守爬虫道德，添加延迟} catch (Exception $e) {echo "抓取失败: ".$e->getMessage()."\n";}
}fclose($csvFile);
echo "数据已保存到 books.csv\n";

使用说明

安装依赖：

composer require guzzlehttp/guzzle symfony/dom-crawler

注意事项：
- 需遵守目标网站的robots.txt规则
- 添加适当的请求延迟（示例中为1秒）
- 需要处理可能出现的反爬机制（验证码、IP封禁等）
- 实际应用中建议使用代理IP池

核心功能说明

HTTP请求：
- 使用Guzzle模拟浏览器请求
- 添加User-Agent头避免被简单拦截
数据解析：
- 通过CSS选择器定位元素
- 提取书名、作者、价格等信息
- 处理可能缺失的数据字段
数据存储：
- 使用CSV格式存储结果
- 包含字段：书名、作者、价格、评分、简介
分页处理：
- 通过URL参数控制分页
- 示例抓取3页数据（可调整循环次数）

扩展建议

反爬应对：

// 随机延迟
sleep(rand(1, 3));// 使用代理
$client = new Client(['proxy' => 'http://user:pass@proxy:port'
]);

数据库存储：

// 使用PDO存储到MySQL
$pdo = new PDO('mysql:host=localhost;dbname=books', 'user', 'pass');
$stmt = $pdo->prepare("INSERT INTO books (...) VALUES (...)");
$stmt->execute([...]);

异步请求：

// 使用Guzzle的异步并发
$promises = [];
foreach ($urls as $url) {$promises[] = $client->getAsync($url);
}
$results = GuzzleHttp\Promise\unwrap($promises);

上面就是我所编写的全部过程，不过如果有更好的方案或者建议可以评论区留言讨论。

查看全文

http://www.xdnf.cn/news/5765.html

力扣451：根据字符频率排序（桶排序）

快解析为TPDDNS用户提供免费替换服务

小白学习Java第18天（上）：mybatis

994. 腐烂的橘子

MYSQL时间函数、group by 和partition by的区别、组内编号leetcode学习

GitHub 趋势日报 (2025年05月11日)

LeetCode热题100——链表

docker-compose的yml文件配置deploy参数失效use the ‘deploy‘ key, which will be ignored.

MIMO 检测(2)--噪声白化

雷池WAF的身份认证 - 钉钉配置教程

hi3516cv610的VPSS_ONLINE支持在vpss做图片放大的操作吗

IT团队如何通过ManageEngine卓豪Endpoint Central有效管理远程终端

解决echartsV5+ restore后echarts显示空白

防火墙来回路径不一致导致的业务异常

当用户在浏览器输入一个 URL 并访问服务器时，这个请求是如何到达对应的 Servlet 的？

基于大模型预测的吉兰 - 巴雷综合征综合诊疗方案研究报告大纲

5.11 - 5.12 JDBC+Mybatis+StringBoot项目配置文件

【NextPilot日志移植】日志写入流程

windows 在安装 Ubuntu-20.04 显示操作超时解决办法

PDM采集数字麦克风数据

linux CUDA与CUDNN安装教程

OrangePi Zero 3学习笔记（Android篇）7 - ftdi_sio

Spring框架（二）

2025年渗透测试面试题总结-渗透测试红队面试八（题目+回答）

使用 Kyverno 验证 Kubernetes 容器镜像：实用指南

AUTOSAR图解==＞AUTOSAR_TR_AIMeasurementCalibrationDiagnostics

软考系统架构设计师系列知识点之杂项集萃（57）

IIS URL静态化伪静态组件ISAPI_Rewrite安装配置伪静态不生效解决办法避坑版

音视频学习：使用NDK编译FFmpeg动态库

【002】renPy android端启动流程分析

使用说明

核心功能说明

扩展建议

相关文章：