当前位置：首页 > ops >正文

scrapy项目开发流程

ops 2025/7/13 16:15:06

1.创建项目：

scrapy startproject mySpider

2.生成一个爬虫：

scrapy genspider itcast itcast.cn

3.提取数据：

根据网站结构在spider中实现数据采集相关内容

4.保存数据

使用pipeline进行数据后续处理和保存

1.创建项目

items.py-->自己预计需要爬取的内容

middlewares.py-->自定义中间件的文件

pipelines.py-->管道，保存数据

settings.py-->设置文件，UA，启动管道

spiders-->自己定义的spider的文件夹

2.创建爬虫

scrapy startproject <爬虫名字><允许爬取的域名>

itcast.py-->定义spider的文件

import scrapyclass ItcastSpider(scrapy.Spider):name = "itcast"allowed_domains = ["itcast.cn"]start_urls = ["https://itcast.cn"]def parse(self, response):#定义对于网站的相关操作pass

爬虫文件的介绍

三个参数

name allowed_domains start_urls(设置起始的url，请求会被自动的发送出去，然后返回parse方法做解析)

一个方法

parse方法 —— 解析方法，通常用于起始url对于响应的解析

运行爬虫需在爬虫项目路径下

scrapy crawl <爬虫名字>

查看全文

http://www.xdnf.cn/news/15240.html

【数据结构初阶】--单链表(一)

C++ Primer（第5版）- Chapter 7. Classes -001

AI大模型（七）Langchain核心模块与实战（二）

嵌入式领域编码合集（为什么中文会乱码）

（一）一阶数字低通滤波器---原理及其推导

web网站无法抓包排查；burp无法抓包情况

实用技巧 Excel 与 XML互转

鸿蒙进程通信的坑之ServiceExtensionAbility

【大模型】深度学习之神经网络

Scrapy爬虫中间件核心技术解析：定制化爬虫的神经中枢

【读书笔记】《C++ Software Design》第二章：The Art of Building Abstractions

c++反射实现

Python ExcelWriter详解：从基础到高级的完整指南

网络安全初级--搭建

python的婚纱影楼管理系统

Redis Geospatial 功能详解及多边形包含判断实现

SpringAI实现聊天记录保存到MySQL

「日拱一码」025 机器学习——评价指标

Spring 框架中的设计模式：从实现到思想的深度解析

C++类模板继承部分知识及测试代码

在 Android 库模块（AAR）中，BuildConfig 默认不会自动生成 VERSION_CODE 和 VERSION_NAME 字段

Linux之Zabbix分布式监控篇（一）

云原生技术与应用-生产环境构建高可用Harbor私有镜像仓库

网络通信模型对比：OSI与TCP/IP参考模型解析

BGP 路由优选属性（7）【MED】官方考试综合实验题【bgp】【acl】【ip-prefix】【route-policy】【icmp 环路】精讲

相关文章：