当前位置：首页 > news >正文

Python 爬虫入门 Day 1 - 网络请求与网页结构基础

news 2025/6/14 13:01:38

Python 第二阶段 - 爬虫入门

🎯 今日目标

理解什么是 Web 爬虫、其应用场景
掌握如何使用 requests 库向网页发送请求
初步了解网页 HTML 结构（为解析做准备）

📘 学习内容详解

🕷️ 什么是爬虫？

定义：

网络爬虫（Web Crawler）是一种自动访问网页并提取数据的程序。

常见用途：
- 爬取图书/商品信息、电影/剧集评分等
- 抓取招聘/房产数据进行数据分析
- 自动化内容归档、信息监控、数据备份

🛠️ 使用 requests 库发起网络请求

pip install requests

基本用法：

import requestsurl = "https://example.com"
response = requests.get(url)print("状态码：", response.status_code)
print("网页内容：", response.text[:500])  # 预览前500字符

常用参数：

requests.get(url, params={'key': 'value'}, headers={'User-Agent': '...'})# 示例：
headers = {'User-Agent': 'Mozilla/5.0'}
response = requests.get("https://httpbin.org/get", headers=headers)

🌐 初识 HTML 结构

网站返回的文本通常是 HTML，结构如下：
```
<html><head><title>标题</title></head><body><h1>主标题</h1><p class="info">这是段落</p></body>
</html>
```
我们后续会用工具（如 BeautifulSoup）提取这些标签中的内容。

💡 今日练习任务

使用 requests 获取以下网址内容：
- https://httpbin.org/get
- https://www.baidu.com （添加 headers 模拟浏览器）
打印网页的状态码、响应头和部分内容。

额外挑战：试着获取你感兴趣的网站首页源码，比如：

豆瓣（https://movie.douban.com/）
简书、知乎、B站等

	
# url = "https://movie.douban.com/"
# url = "https://www.jianshu.com"
# url = "https://www.zhihu.com"
url = "https://www.bilibili.com"
headers = {'Accept': 'application/json, text/plain, */*','Host': 'www.bilibili.com','User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/137.0.0.0 Safari/537.36 Edg/137.0.0.0'
}
response = requests.get(url, headers=headers)print("状态码：", response.status_code)
print("网页内容：", response.text)