当前位置: 首页 > news >正文

用python进行多页数据爬取_Python Scrapy多页数据爬取实现过程解析

1.先指定通用模板url = ‘https://www.qiushibaike.com/text/page/%d/’#通用的url模板

pageNum = 1

2.对parse方法递归处理

parse第一次调用表示的是用来解析第一页对应页面中的数据

对后面的页码的数据要进行手动发送if self.pageNum <= 5:

self.pageNum += 1

new_url = format(self.url%self.pageNum)

#手动请求(get)的发送

yield scrapy.Request(new_url,callback=self.parse)

完整示例class QiubaiSpider(scrapy.Spider):

name = 'qiubai'

# allowed_domains = ['www.xxx.com']

start_urls = ['https://www.qiushibaike.com/text/']

url = 'https://www.qiushibaike.com/text/page/%d/'#通用的url模板

pageNum = 1

#parse第一次调用表示的是用来解析第一页对应页面中的段子内容和作者

def parse(self, response):

div_list = response.xpath('//*[@id="content-left"]/div')

all_data = []

for div in div_list:

author = div.xpath('./div[1]/a[2]/h2/text()').extract_first()

content = div.xpath('./a[1]/div/span//text()').extract()

content = ''.join(content)

# 将解析的数据存储到item对象

item = QiubaiproItem()

item['author'] = author

item['content'] = content

# 将item提交给管道

yield item # item一定是提交给了优先级最高的管道类

if self.pageNum <= 5:

self.pageNum += 1

new_url = format(self.url%self.pageNum)

#手动请求(get)的发送

yield scrapy.Request(new_url,callback=self.parse)

以上就是本文的全部内容,希望对大家的学习有所帮助。

http://www.xdnf.cn/news/807211.html

相关文章:

  • Android四大组件之Activity--管理方式
  • 听说过纸杯留声机吗?一个寓教于乐的创新实验
  • Good English learning on-line site for share with you[转自bbs.chinadaily.com.cn]
  • 王道操作系统ppt课件_推荐5个做PPT课件的免费模板网站
  • 如何使用沙盘多开流量精灵,流量精灵多开有用吗
  • 聚类之层次聚类与密度聚类
  • ARP病毒清除方法
  • VMware ESXi 7在VMware Workstation 15.5.2中安装部署
  • [python爬虫]Scrapy入门使用教程
  • EMQX 社区版单机和集群部署
  • 你没有见过这么多的“我爱XX网”
  • 【收藏】2011年SSCI收录信息科学与图书馆学学科期刊86种目录
  • 常用的开源许可证 MIT、Apache、GPL
  • Oracle中的Round和Trunc
  • 电子签章结构以及规范讲解
  • 自己做个erp系统,目前主流的开发软件是什么?
  • 十大流氓软件及卸载方法整理
  • 正斜杠(/)与反斜杠(\)总结
  • jdk1.6-64下载
  • 关于碎纸片拼接复原的算法研究
  • UIComponent的生命周期(life cycle)
  • 奇迹按键精灵挂机脚本_按键精灵做连击脚本(奇迹MU战士用)
  • Struts2快速入门,超简单详细的快速入门教程
  • 台式计算机cpu允许温度,台式机cpu温度多少正常 台式电脑工作时温度范围
  • 推荐几个比较有助于android深入学习的网址
  • MySQL中文失败问题
  • 世界顶级杀毒软件排名:十二款世界顶级杀毒软件下载!
  • Red5 流媒体 学习(三)
  • Cocos2d-x之Touch事件处理机制
  • 全国各大学精品课程网站