当前位置：首页 > ds >正文

Python BeautifulSoup解析HTML获取图片URL并下载到本地

ds 2025/7/20 1:40:54

一、Python BeautifulSoup解析HTML获取图片URL并下载到本地

#! python3
# downloadXkcd.py - Downloads every single JDLY comic.
import osimport bs4
import requestsurl = 'https://www.jdlingyu.com/145853.html'
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/137.0.0.0 Safari/537.36"
}
os.makedirs('JDLY', exist_ok=True)
try:mainRequest = requests.get(url, headers)mainRequest.raise_for_status()# print(mainRequest.text)soup = bs4.BeautifulSoup(mainRequest.text, 'html.parser')  # html解析imgUrls = []imgUrls = soup.select('.entry-content img')  # 获取div class name为entry-content下的img图片# print(imgUrls)for imgUrl in imgUrls:url = imgUrl.get('data-src') # 获取data-src属性img = requests.get(url, headers=headers).content # 获取图片内容# 保存本地with open(os.path.join('JDLY//',os.path.basename(url)), mode='wb') as f:f.write(img)
except Exception as e:print(f"获取图片异常：" + str(e))

http://www.xdnf.cn/news/13023.html

相关文章：

word中表格线粗细调整

基于单片机的病房呼叫系统(源码+仿真)

Linux知识回顾总结----进程状态

什么是ANSYS ACT? ACT又可以分为哪几类？

yaklang 中的各种 fuzztag 标签及其用法

跟我学c++中级篇——多线程中的文件处理

Java网络编程：构建现代分布式应用的核心技术

day50 随机函数与广播机制

基于Java Web的校园失物招领平台设计与实现

Redis——主从哨兵配置

ckeditor5的研究 (9)：写一个自定义插件，包括自定义的toolbar图标、插入当前时间，并复用 CKEditor5 内置的 UI 组件

2025年U盘数据恢复软件推荐：找回丢失文件的得力助手

大数据赋能行业智能化升级：从数据价值到战略落地的全景透视

网络渗透测试中的信息收集与网站目录扫描实战详解

Linux --进程控制

DHCP / DHCPv6 原理 / 报文解析 / 配置示例

Maven入门（够用）

Secs/Gem第九讲(基于secs4net项目的ChatGpt介绍)

《光子技术成像技术》第四章预习2025.6.8

1. Web网络基础 - IP地址核心知识解析

信号与传输介质

Linux 如何移动目录 (文件夹) (内含 Linux 重命名方法)

【项目实训项目博客】用户使用手册

ES6 核心语法手册

C语言学习数组(一维数组,多维数组,字符数组,字符串) 2025年6月8日09:21:39

Σ∆ 数字滤波

Linux 用户层和内核层锁的实现

嵌入式面试提纲

debian12拒绝海外ip连接

PyCharm和VS Code哪个更适合初学者