当前位置: 首页 > news >正文

从代码学习深度学习 - 图像增广 PyTorch 版

文章目录

  • 前言
  • 一、图像增广的基本概念
  • 二、PyTorch中的图像增广实现
  • 三、数据加载与处理
  • 四、模型训练与评估
  • 五、实验设置与执行
  • 六、实验结果与分析
  • 七、讨论
  • 总结


前言

在深度学习中,数据是关键。尤其是在计算机视觉任务中,高质量且丰富多样的数据对模型性能有着决定性的影响。然而,获取大量标注的图像数据往往成本高昂且耗时。这时,图像增广(Image Augmentation)技术就显得尤为重要,它通过对现有数据进行变换生成更多样化的训练样本,帮助模型学习更鲁棒的特征表示,从而提高泛化能力。

本文将通过代码示例,介绍如何在PyTorch框架下实现图像增广,并分析其对模型性能的影响。我们将使用CIFAR-10数据集,通过ResNet-18模型进行图像分类任务,展示图像增广的实际应用与效果。值得注意的是,本文只展示了与图像增广与训练有关的代码,完整代码在下方链接提供,包含了丰富的注释。

完整代码:下载链接


一、图像增广的基本概念

图像增广是指通过对原始图像进行一系列变换(如旋转、缩放、翻转等),生成新的训练样本,以扩充训练数据集。这些变换通常不会改变图像的语义信息,但可以帮助模型学习到更多样化的特征,增强对各种变化的适应能力。

常见的图像增广方法包括:

  • 几何变换:旋转、翻转、缩放、裁剪等
  • 颜色变换:亮度、对比度、色调调整等
  • 噪声添加:高斯噪声、椒盐噪声等
  • 遮挡:随机遮挡图像的一部分

在本教程中,我们将重点关注简单而有效的水平翻转增广方法。

二、PyTorch中的图像增广实现

PyTorch通过torchvision.transforms模块提供了丰富的图像增广功能。让我们看看如何定义增广操作:

import torchvision  # 导入PyTorch视觉库,用于图像转换和数据增强
# 定义训练数据的转换流程,包含随机水平翻转和张量转换
train_augs = torchvision.transforms.Compose([torchvision.transforms.RandomHorizontalFlip(),  # 随机水平翻转图像,数据增强的常用方法torchvision.transforms.ToTensor()               # 将PIL图像或NumPy数组转换为张量,并将像素值归一化到[0,1]区间
])
# 定义测试数据的转换流程,只包含张量转换,不进行数据增强
test_augs = torchvision.transforms.Compose([torchvision.transforms.ToTensor()               # 将PIL图像或NumPy数组转换为张量,并将像素值归一化到[0,1]区间
])

在上面的代码中,我们定义了两个转换流程:

  1. train_augs:用于训练数据,包含随机水平翻转(概率为0.5)和张量转换
  2. test_augs:用于测试数据,只包含张量转换,不进行数据增强

注意,我们只对训练数据进行增广,测试数据保持原样,这是因为我们希望在真实场景中评估模型性能。

三、数据加载与处理

接下来,我们需要加载CIFAR-10数据集并应用上述定义的增广操作:

import multiprocessing  # 导入多进程模块,用于获取CPU核心数
def get_dataloader_workers():"""根据可用CPU核心数动态设置worker数量返回:workers: 数据加载器的工作进程数,不超过4个"""# 返回可用CPU核心数和4之间的较小值,避免创建过多进程return min(4, multiprocessing.cpu_count())def load_cifar10(is_train, augs, batch_size):"""加载CIFAR10数据集参数:is_train: 布尔值,是否加载训练集augs: 数据增强和转换操作batch_size: 批量大小返回:dataloader: 数据加载器"""# 创建CIFAR10数据集,根据is_train参数决定加载训练集还是测试集dataset = torchvision.datasets.CIFAR10(root="data", train=is_train,transform=augs, download=True)# 创建DataLoader,用于批量加载数据# 训练集时打乱数据,测试集时保持原顺序dataloader = torch.utils.data.DataLoader(dataset, batch_size=batch_size,shuffle=is_train, num_workers=get_dataloader_workers(
http://www.xdnf.cn/news/111925.html

相关文章:

  • 解决VSCode每次SSH连接服务器时,都需要下载vscode-server
  • Rust 2025:内存安全革命与异步编程新纪元
  • 大模型技术全景解析:从基础架构到Prompt工程
  • 无感字符编码原址转换术——系统内存(Mermaid文本图表版/DeepSeek)
  • 7.9 Python+Click实战:5步打造高效的GitHub监控CLI工具
  • #define STEUER_A_H {PWM_A_ON}
  • CSS3 基础(背景-文本效果)
  • 04-stm32的标准外设库
  • TI MSP430搭配 SD NAND(贴片式T卡):长续航心电监测的可靠保障
  • 关于按键映射软件的探索(其一)
  • STM32F407使用ESP8266实现阿里云OTA(下)
  • postgis:添加索引时提示“对访问方法 gist 数据类型 geometry 没有默认的操作符表“
  • 将视频生成视频二维码步骤
  • 深入浅出学会函数(下)
  • 【霍夫变换】图像处理(OpenCV)-part11
  • 【阿里云大模型高级工程师ACP习题集】2.4 自动化评测答疑机器人的表现(⭐️⭐️⭐️ 重点章节!!!)
  • 数据结构-图
  • HOW - Code Review 流程自动化
  • 学习threejs,使用EffectComposer后期处理组合器(采用RenderPass、ShaderPass渲染通道),案例一
  • 17.第二阶段x64游戏实战-人工遍历二叉树结构
  • 给git配置SSH(github,gitee)
  • 【前端】【业务场景】【面试】在前端项目中,当涉及大量数据渲染时,如何提高渲染性能并避免页面卡顿?
  • uniapp 安卓离线本地打包,Android Studio生成apk包
  • 27、Session有什么重⼤BUG?微软提出了什么⽅法加以解决?
  • Linux 命令行与 vi/vim 编辑器完全指南
  • continue插件实现IDEA接入本地离线部署的deepseek等大模型
  • 想要从视频中提取背景音乐怎么搞?其实视频提取音频非常简单
  • 金融系统上云之路:云原生后端架构在金融行业的演化与实践
  • 以太网的mac帧格式
  • 基于Vulkan Specialization Constants的材质变体系统