当前位置: 首页 > ai >正文

PHP实现简单的爬虫功能

<?php// 目标URL
$url = 'https://example.com';// 初始化cURL
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);
curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/5.0 (compatible; MyPHPCrawler/1.0)');
curl_setopt($ch, CURLOPT_TIMEOUT, 10); // 设置超时时间// 执行请求并获取HTML内容
$html = curl_exec($ch);// 检查请求是否成功
if (curl_errno($ch)) {echo 'cURL Error: ' . curl_error($ch);curl_close($ch);exit;
}
curl_close($ch);// 解析HTML内容
$dom = new DOMDocument();
@$dom->loadHTML($html); // 使用@抑制HTML解析警告
$xpath = new DOMXPath($dom);// 提取页面标题
$titleNode = $xpath->query('//title')->item(0);
$title = $titleNode ? $titleNode->nodeValue : 'No Title';
echo "Page Title: $title\n";// 提取所有链接
$links = $xpath->query('//a/@href');
echo "Found Links:\n";
foreach ($links as $link) {echo $link->nodeValue . "\n";
}?>

PHP可以实现基本的爬虫功能,但对于复杂的抓取任务(如处理JavaScript渲染的内容、登录验证、反爬机制等),可能需要结合其他工具或语言。


我的个人PHP项目:

PHP全文检索引擎 WindSearch: https://github.com/rock365/windsearch

请帮我点个star~谢谢你!

http://www.xdnf.cn/news/336.html

相关文章:

  • 不规则曲面上两点距离求取
  • Replicate Python client
  • 中间件--ClickHouse-12--案例-1-日志分析和监控
  • Datawhale AI春训营学习笔记
  • 吴恩达强化学习复盘(2)K-Means初始化|K的选择|算法优化
  • 基于模板匹配的信用卡号码识别系统
  • Fastdata极数:全球AR/VR行业发展趋势报告2025
  • C#.net core部署IIS
  • 【愚公系列】《Python网络爬虫从入门到精通》056-Scrapy_Redis分布式爬虫(Scrapy-Redis 模块)
  • ai学习中收藏网址【1】
  • Nginx 文件上传大小限制及 `client_max_body_size` 最大值详解
  • C++ 基于多设计模式下的同步异步⽇志系统-1准备工作
  • 数据库表设计
  • C 语 言 --- 指 针 4(习 题)
  • 【java实现+4种变体完整例子】排序算法中【选择排序】的详细解析,包含基础实现、常见变体的完整代码示例,以及各变体的对比表格
  • 企业网站安装 SSL安装的必要性
  • Nvidia显卡架构演进
  • Shiro-550 动调分析与密钥正确性判断
  • PHP中的ReflectionClass讲解【详细版】
  • Git 版本控制工具
  • 每天五分钟深度学习PyTorch:0填充函数在搭建神经网络中的应用
  • Spring Boot 中基于 Reactor 的服务器端事件(SSE)推送机制实践
  • 成人大学报考-助你跨越信息鸿沟
  • Charles破解 激活码 Java
  • 美信监控易告警:功能强大
  • 变压器运输如何避免冲击损坏? 宏集ASPION G-Log2 冲击记录仪实测解析
  • C++指针(二)
  • python_level1.2
  • 使用Jasypt对配置文件内容加密
  • 布隆过滤器如何删除数据