当前位置: 首页 > news >正文

Python爬虫07_Requests爬取图片

一、爬取网页图片

即用 requests 下载一张网络图片,并以当前时间戳作为文件名保存到本地,初步理解实现程序化自动爬取图片数据。

import requests
import time
import datetimeif __name__ == "__main__":#爬取图片数据url = 'https://pics5.baidu.com/feed/023b5bb5c9ea15ce37c1c2b207b6b5fe3b87b2a5.jpeg@f_auto?token=be26647100a6ad7e4a182c2f70dcebf7'#伪造userAgentuserAgent = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:122.0) Gecko/20100101 Firefox/122.0'}#content返回的是二进制形式的图片数据#text(字符串),content(二进制),json()(对象)imgData = requests.get(url=url,headers=userAgent).content#获取当前日期和时间,时间戳形式current_time = time.time()current_timeStr = str(current_time)print("当前时间戳为:", current_timeStr)print('------------------------------------------------------------------')#获取当前时间,格式化可读形式dataTime = datetime.datetime.now()print("格式化时间为:", dataTime)print('------------------------------------------------------------------')#时间戳还原成可读日期时间格式timestamp = 1708009107.9769785  # 输入要还原的时间戳dt_object = datetime.datetime.fromtimestamp(timestamp)formatted_time = dt_object.strftime('%Y-%m-%d %H:%M:%S')print("还原后的时间为:", formatted_time)print('------------------------------------------------------------------')with open('E:/Reptile/img/'+ current_timeStr +'.jpeg','wb') as fp:fp.write(imgData)print("over! 保存成功!")

二、图片数据解析

必须以二进制方式返回图片数据的核心原因是:图片文件在底层就是一串原始字节(binary stream),而不是文本字符串;任何字符编码(如 UTF-8、GBK)都会破坏这些字节的原始顺序,导致图片打不开或损坏。
1、图片不是文本
text 属性会把服务器返回的内容先按某种字符编码(默认 UTF-8)解码成字符串,遇到非文本字节就可能丢码、替换或截断,从而破坏图片格式。
2、二进制 = 无损拷贝
使用 .content 直接拿到 未经任何编码转换的原始字节,写入文件时才能 1:1 还原服务器发来的位图数据。
3、文件系统写图片需要 bytes
open(…, ‘wb’) 要求写入 bytes 类型;如果误用 text(str 类型),Python 会尝试用默认编码把字符串再编码成字节,结果必然失真。

二进制是保证图片完整性的唯一正确方式。

http://www.xdnf.cn/news/1218997.html

相关文章:

  • 如何将照片从 realme 手机传输到电脑?
  • 设计模式之代理模式
  • 网关 + MDC 过滤器方案,5分钟集成 日志 traceid
  • React中的this绑定
  • node.js之Koa框架
  • Linux Flathub软件管理方法 使用指南
  • [12月考试] E
  • 进程控制:从创建到终结的完整指南
  • 【Django】-1- 开发项目搭建
  • MongoDB系列教程-第四章:MongoDB Compass可视化和管理MongoDB数据库
  • 抓大鹅小游戏微信抖音流量主小程序开源
  • HUD抬头显示器-杂散光测试设备 太阳光模拟器
  • AI学习笔记三十三:基于Opencv的单目标跟踪
  • 对git 熟悉时,常用操作
  • day36 力扣1049.最后一块石头的重量II 力扣494.目标和 力扣474.一和零
  • 【LeetCode 热题 100】4. 寻找两个正序数组的中位数——(解法一)线性扫描
  • [论文阅读] 人工智能 + 软件工程 | KnowledgeMind:基于MCTS的微服务故障定位新方案——告别LLM幻觉,提升根因分析准确率
  • SFT最佳实践教程 —— 基于方舟直接进行模型精调
  • 构型空间(Configuration Space,简称C-space)
  • 全基因组关联分析(GWAS)中模型参数选择:MLM、GLM与FarmCPU的深度解析
  • 数据库中使用SQL作分组处理01(简单分组)
  • 【worklist】worklist的hl7、dicom是什么关系
  • 学以致用——用Docker搭建ThinkPHP开发环境
  • 深入探索Weaviate:构建高效AI应用的数据库解决方案
  • 《人工智能导论》(python版)第2章 python基础2.2编程基础
  • 大模型流式长链接场景下 k8s 优雅退出 JAVA
  • PHP 与 MySQL 详解实战入门(1)
  • 零基础构建MCP服务器:TypeScript/Python双语言实战指南
  • 在幸狐RV1106板子上用gcc14.2本地编译安装samba-4.22.3服务器,并且支持XP系统访问共享文件夹
  • 基于单片机胎压检测/锅炉蒸汽压力/气压检测系统