使用Python实现简单爬虫:从入门到实践
引言
网络爬虫是自动化获取网页数据的强大工具,常用于数据收集、内容分析等场景。本文将通过一个原创的Python爬虫示例,引导初学者快速上手爬虫开发。我们将使用requests和BeautifulSoup库,爬取一个公开网页的标题和链接列表,代码简单且经过验证可运行。本教程适合Python初学者或希望了解爬虫基础的开发者。
准备工作
在开始之前,请确保完成以下准备:
1. 环境要求
-
Python版本:Python 3.8或以上(推荐3.10)。
-
依赖库:需要安装requests和beautifulsoup4。
pip install requests beautifulsoup4
-
开发工具:任意Python IDE(如PyCharm、VSCode)或Jupyter Notebook。
-
网络:确保网络畅通,能访问目标网站。
2. 目标网站
我们将以Example.com为例,这是一个公开的测试网站,适合学习爬虫:
-
网站内容简单,包含静态HTML,便于解析。
-
遵守robots.txt协议,未禁止爬取(截至2025年4月)。
-
注意:本文示例仅用于学习,实际爬虫需遵守目标网站规则和法律法规。
3. 学习目标
通过本文,你将学会:
-
使用requests发送HTTP请求。
-
使用BeautifulSoup解析HTML并提取数据。
-
将爬取结果保存到本地文件。
-
了解爬虫开发的注意事项。
实现步骤
以下是实现爬虫的详细步骤,代码经过测试,确保在Python 3.10环境下可运行。
1. 发送HTTP请求
我们使用requests库向目标网页发送GET请求,获取HTML内容。
import requests# 目标网页URL
url = "http://example.com"try:# 发送GET请求,设置超时时间response = requests.get(url, timeout=5)# 检查请求