当前位置: 首页 > backend >正文

CAU人工智能class7 迁移学习

深度学习自2012年的AlexNet发展以来已经从早期的各自为战,发展到现在的预训练大模型+大小联调(迁移学习)。

迁移学习

在这里插入图片描述
那么在神经网络的训练上,是否也有这种现象呢?
答案是肯定的,目前CNN领域一般在一个已经训练好的预训练模型上根据具体任务再进行微调。

迁移学习放宽了训练数据必须与测试数据独立同分布的假设

因为这种方法侧重的是知识迁移和领域适应,并不依赖于数据的统计特性。

优势

在这里插入图片描述

实现

在这里插入图片描述

微调

微调的核心思想是利用在大规模数据集上预训练一个模型,然后在基于少量的目标域训练样本上对预训练模型的参数进行微调。这种方法在解决小样本应用场景中展现出巨大的潜力。
在这里插入图片描述
在VGG中就有过类似的使用:
在这里插入图片描述
浅层的A层作为预训练,初始化其他模型的参数

微调的几种方式

  • 载入预训练模型后,微调训练所有层的参数
  • 载入预训练模型后, 固定(冻结)前面的卷积层,只训练最后几个全连接层的参数
  • 载入预训练模型后,微调后面的卷积层 + 全连接层

微调 (fine-tuning) 应用场景

在这里插入图片描述

知识蒸馏

让小模型获得大模型的智慧
小模型有部署简单,资源消耗小等优点。

什么是知识蒸馏

将大模型的知识迁移到小模型当中,让小模型模仿大模型

实现

使用软标签

什么是软标签?
在这里插入图片描述
软标签可以保留更多信息,适合作为小模型学习的材料

损失函数

教师在将“知识”传递给学生的过程中,会有一些损失,称为蒸馏损失

因此,学生模型的损失由两部分构成:
总损失 = 蒸馏损失 + 自身模型损失 的加权和

过程

在这里插入图片描述
温度控制
在这里插入图片描述
在softmax中会将占比大的类别会更大,占比小的会更小。也就是说softmax会增大个个选项之间的差距。
而在指数函数中自变量越小,增长的幅度越小,因此可以增大温度来控制各个选项的差距。
在这里插入图片描述

http://www.xdnf.cn/news/12509.html

相关文章:

  • JAVA-什么是JDK?
  • 【动手学深度学习】2.6. 概率
  • VTK 显示文字、图片及2D/3D图
  • rocketmq 之 DLeger集群,启动ACL 1.0,集成rocektmq-mqtt实践
  • pe文件结构(TLS)
  • window安装docker\docker-compose
  • 每日算法刷题Day24 6.6:leetcode二分答案2道题,用时1h(下次计时20min没写出来直接看题解,节省时间)
  • Java线程卡死问题定位
  • 商业卫星推进与控制系统电源芯片的国产替代研究
  • 智谱清言沉思智能体,天工智能体,agenticSeek等AI Agent测试记录
  • 黄晓明新剧《潜渊》定档 失忆三面间谍开启谍战新维度
  • 一些免费的大A数据接口库
  • LLaMA-Factory的5种推理方式总结
  • 使用vtk8.2.0加载dicom图像
  • 界面开发框架DevExpress XAF实践:集成.NET Aspire后如何实现数据库依赖?
  • 【AUTOSAR COM】E2E的不同profiles的含义以及应用
  • 批量文件改名具体操作方案
  • USB扩展器与USB服务器的2个主要区别
  • 机器人编程界面
  • CMake 为 Debug 版本的库或可执行文件添加 d 后缀
  • 第五讲——一元函数微分学的几何应用
  • 飞马LiDAR500雷达数据预处理
  • LLMControlsArm开源程序是DeepSeek 控制熊猫机械臂
  • Python基础语法全解:从入门到精通的简明指南
  • 初始结构体,整型提升及操作符的属性
  • RockyLinux9.6搭建k8s集群
  • 一键编译包含多个独立模块和应用的工程(linux cmake)
  • 单片机0-10V电压输出电路分享
  • 微信小程序动态效果实战指南:从悬浮云朵到丝滑列表加载
  • JVM——打开JVM后门的钥匙:反射机制