当前位置：首页 > web >正文

使用亮数据代理IP+Python爬虫批量爬取招聘信息训练面试类AI智能体（手把手教学版）

web 2025/8/19 21:09:37

文章目录

- 一、为什么要用代理IP？(重要！！！)
- 二、环境准备（三件套走起）
- - 2.1 安装必备库（pip大法好）
  - 2.2 获取亮数据代理（官网注册送试用）
- 三、编写爬虫代码（含完整异常处理）
- - 3.1 基础爬取函数（核心代码）
  - 3.2 多页爬取封装（自动翻页）
- 四、数据清洗与存储（Pandas骚操作）
- - 4.1 数据去重处理
  - 4.2 存储到CSV（后续AI训练用）
- 五、训练面试AI智能体（黑科技揭秘）
- - 5.1 数据预处理流程
  - 5.2 简易AI训练代码（PyTorch版）
- 六、注意事项（血泪经验总结）
- 七、常见问题解答（Q&A）

一、为什么要用代理IP？(重要！！！)

兄弟们（敲黑板）！当你想批量爬取招聘网站数据时，有没有遇到过这些情况：

刚爬10页就被封IP（心态爆炸💥）
数据加载不全（关键薪资信息总缺失）
验证码多到怀疑人生（我是机器人吗？）

重点来了（掏出小本本记）：使用亮数据代理IP可以：

自动轮换IP地址（避免封禁）
突破地域限制（比如想爬某地岗位）
绕过反爬机制（成功率提升300%！）

二、环境准备（三件套走起）

2.1 安装必备库（pip大法好）

pip install requests beautifulsoup4 pandas 
# requests：网络请求神器
# bs4：HTML解析之王
# pandas：数据处理专家

2.2 获取亮数据代理（官网注册送试用）

# 代理配置示例（替换成你的认证信息）
PROXY_USER = "你的用户名"
PROXY_PASSWORD = "你的密码"
PROXY_ENDPOINT = "gateway.lumiproxy.com:22225"

三、编写爬虫代码（含完整异常处理）

3.1 基础爬取函数（核心代码）

import requests
from bs4 import BeautifulSoupdef get_jobs(keyword, page):# 设置代理（重点！！！）proxies = {"http": f"http://{PROXY_USER}:{PROXY_PASSWORD}@{PROXY_ENDPOINT}","https": f"http://{PROXY_USER}:{PROXY_PASSWORD}@{PROXY_ENDPOINT}"}try:url = f"https://www.zhipin.com/web/geek/job?query={keyword}&page={page}"headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36..."}# 发起带代理的请求response = requests.get(url, headers=headers, proxies=proxies, timeout=10)response.raise_for_status()  # 自动检测HTTP错误# 解析HTMLsoup = BeautifulSoup(response.text, 'lxml')jobs = []for item in soup.select('.job-list li'):title = item.select_one('.job-name').text.strip()salary = item.select_one('.salary').text.strip()company = item.select_one('.company-name').text.strip()jobs.append({"title": title,"salary": salary,"company": company})return jobsexcept Exception as e:print(f"第{page}页爬取出错：{str(e)}")return []

3.2 多页爬取封装（自动翻页）

def batch_crawl(keyword, max_page=10):all_jobs = []for page in range(1, max_page+1):print(f"正在爬取第{page}页...")jobs = get_jobs(keyword, page)if not jobs:  # 遇到封禁立即停止print("触发反爬机制！建议：")print("1. 更换代理IP\n2. 增加请求间隔\n3. 检查User-Agent")breakall_jobs.extend(jobs)time.sleep(random.uniform(1, 3))  # 随机等待防封return all_jobs

四、数据清洗与存储（Pandas骚操作）

4.1 数据去重处理

import pandas as pddf = pd.DataFrame(all_jobs)
print("原始数据量：", len(df))# 高级去重（综合三个字段）
df_clean = df.drop_duplicates(subset=['title', 'salary', 'company'],keep='first'
)
print("去重后数据量：", len(df_clean))

4.2 存储到CSV（后续AI训练用）

df_clean.to_csv('job_data.csv', index=False, encoding='utf-8-sig')  # 解决中文乱码

五、训练面试AI智能体（黑科技揭秘）

5.1 数据预处理流程

from transformers import AutoTokenizertokenizer = AutoTokenizer.from_pretrained("bert-base-chinese")# 将岗位描述转换为AI可理解的格式
def preprocess(text):inputs = tokenizer(text,max_length=512,truncation=True,padding='max_length')return inputs

5.2 简易AI训练代码（PyTorch版）

import torch
from transformers import AutoModelForSequenceClassificationmodel = AutoModelForSequenceClassification.from_pretrained("bert-base-chinese",num_labels=2  # 示例：岗位分类
)# 模拟训练循环（实际需加载清洗后的数据）
for epoch in range(3):optimizer.zero_grad()outputs = model(**batch)loss = outputs.lossloss.backward()optimizer.step()