当前位置: 首页 > ds >正文

Python BeautifulSoup解析HTML获取图片URL并下载到本地

一、Python BeautifulSoup解析HTML获取图片URL并下载到本地

#! python3
# downloadXkcd.py - Downloads every single JDLY comic.
import osimport bs4
import requestsurl = 'https://www.jdlingyu.com/145853.html'
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/137.0.0.0 Safari/537.36"
}
os.makedirs('JDLY', exist_ok=True)
try:mainRequest = requests.get(url, headers)mainRequest.raise_for_status()# print(mainRequest.text)soup = bs4.BeautifulSoup(mainRequest.text, 'html.parser')  # html解析imgUrls = []imgUrls = soup.select('.entry-content img')  # 获取div class name为entry-content下的img图片# print(imgUrls)for imgUrl in imgUrls:url = imgUrl.get('data-src') # 获取data-src属性img = requests.get(url, headers=headers).content # 获取图片内容# 保存本地with open(os.path.join('JDLY//',os.path.basename(url)), mode='wb') as f:f.write(img)
except Exception as e:print(f"获取图片异常:" + str(e))
http://www.xdnf.cn/news/13023.html

相关文章:

  • word中表格线粗细调整
  • 基于单片机的病房呼叫系统(源码+仿真)
  • Linux知识回顾总结----进程状态
  • 什么是ANSYS ACT? ACT又可以分为哪几类?
  • yaklang 中的各种 fuzztag 标签及其用法
  • 跟我学c++中级篇——多线程中的文件处理
  • Java网络编程:构建现代分布式应用的核心技术
  • day50 随机函数与广播机制
  • 基于Java Web的校园失物招领平台设计与实现
  • Redis——主从哨兵配置
  • ckeditor5的研究 (9):写一个自定义插件,包括自定义的toolbar图标、插入当前时间,并复用 CKEditor5 内置的 UI 组件
  • 2025年U盘数据恢复软件推荐:找回丢失文件的得力助手
  • 大数据赋能行业智能化升级:从数据价值到战略落地的全景透视
  • 网络渗透测试中的信息收集与网站目录扫描实战详解
  • Linux --进程控制
  • DHCP / DHCPv6 原理 / 报文解析 / 配置示例
  • Maven入门(够用)
  • Secs/Gem第九讲(基于secs4net项目的ChatGpt介绍)
  • 《光子技术成像技术》第四章 预习2025.6.8
  • 1. Web网络基础 - IP地址核心知识解析
  • 信号与传输介质
  • Linux 如何移动目录 (文件夹) (内含 Linux 重命名方法)
  • 【项目实训项目博客】用户使用手册
  • ES6 核心语法手册
  • C语言 学习 数组(一维数组,多维数组,字符数组,字符串) 2025年6月8日09:21:39
  • Σ∆ 数字滤波
  • Linux 用户层 和 内核层锁的实现
  • 嵌入式面试提纲
  • debian12拒绝海外ip连接
  • PyCharm和VS Code哪个更适合初学者