当前位置: 首页 > ai >正文

SoftMax 函数

SoftMax 函数是机器学习中常用的激活函数,尤其在多分类任务中,用于将输出转化为概率分布。以下是对其详细介绍:

1. 数学定义


2. 核心特性

  • 概率解释:输出可视为样本属于各类别的概率。
  • 单调性:输入值越大,对应输出概率越高,保持输入的顺序。
  • 平移不变性:输入向量整体加减常数 ( c ),输出不变。即:
  • 这一性质用于数值稳定性优化(见后文)。

3. 数值稳定性

指数运算可能导致数值溢出(如 ( e^1000 ) 超出浮点范围)。解决方法:
  • 减去最大值:计算时对输入向量 Z 的每个元素减去最大值  max(z)
  • 此操作不影响结果,但避免指数爆炸。

4. 导数与交叉熵损失

当 SoftMax 与交叉熵损失结合时,梯度计算高效简化:

5. 温度参数(Temperature Scaling)

引入温度 ( T ) 调整输出分布的平滑程度:
  • 高温( T > 1):分布更平缓,探索性增强。
  • 低温( T < 1):分布更尖锐,接近 argmax。
  • 应用场景:模型蒸馏、调整预测置信度。

6. 与 LogSoftMax 的关系

  • LogSoftMax:对 SoftMax 结果取对数:
  • 优势:数值稳定,直接用于交叉熵损失计算(如 PyTorch 的 nn.LogSoftmax + nn.NLLLoss)。

7. 应用场景

  • 多分类输出层:如 CNN 对图像分类(MNIST、CIFAR-10)。
  • 强化学习:策略网络输出动作概率。
  • 注意力机制:计算注意力权重(如 Transformer)。

8. 示例

输入向量:Z= [1.0, 2.0, 3.0]
  • 常规 SoftMax:
    • 计算指数:
  • 归一化:( [0.090, 0.245, 0.665] )
  • 第三个类别概率最高(65%)。
  • 温度 ( T = 2 )
    • 调整后输入:( [0.5, 1.0, 1.5] )
  • 输出更平缓:( [0.186, 0.307, 0.507] )

9. 对比其他函数

函数

用途

输出范围

特点

SoftMax

多分类输出层

概率分布(和为1)

可导,放大差异

Sigmoid

二分类输出层

单个概率(0~1)

处理二分类问题

ReLU

隐藏层激活

非负值

缓解梯度消失,计算高效


10. 总结

SoftMax 函数通过指数运算与归一化,将输入映射为概率分布,是多分类任务的核心组件。其数值稳定性优化、与交叉熵损失的高效结合,以及温度参数的灵活性,使其在深度学习中广泛应用。理解其数学原理及实现细节,对模型设计和调试至关重要。

交叉熵损失函数 与 SoftMax 函数的梯度推导如下

1. 链式法则应用

http://www.xdnf.cn/news/14333.html

相关文章:

  • Unity基础-范围检测
  • Redis全面深入学习目录
  • 求数组中最长单调不降连续子数组的长度
  • stm32 f103c8t6仿真 串口收发测试
  • 用AI配合MCP快速生成n8n工作流
  • 【Linux服务器】-安装zabbix-负载环境(故障自动切换场景)
  • HarmonyOS Grid 网格拖拽完全指南
  • 设备健康管理系统搭建全技术解析:从架构设计到智能运维实践
  • Linux 忘记root密码如何解决-linux025
  • 理解 package.json 中的版本控制:“nuxt“: “3.16.0“ vs “nuxt“: “^3.16.0“ 的深层差异
  • DependencyMatcher + ML Reranking 策略设计实践
  • Qt3d中的材质--PBR材质
  • vue中computed和watch区别
  • jxWebUI--简单易用的webUI库
  • 大模型微调(Fine-tuning)概览
  • 算法导论第七章:快速排序的艺术与科学
  • 使用axios及和spirng boot 交互
  • @SpringBootTest 详解
  • Day32
  • 《Vuejs设计与实现》第 9 章(简单 diff 算法)
  • NISP-PTE基础实操——SQL注入
  • [蓝桥杯 2025 国 B] 斐波那契字符串一一题解
  • 论文笔记 <交通灯> <多智能体>DERLight双重经验回放灯机制
  • HTML5+JS实现一个简单的SVG 贝塞尔曲线可视化设计器,通过几个点移动位置,控制曲线的方向
  • 路由器端口映射怎么设置?本地固定内网IP给外面网络连接访问
  • [深度学习]目标检测YOLO v3
  • AI视野:视频处理AI排行榜Top10 | 2025年05月
  • 解决电脑第一排按键功能失效的问题
  • 多维数据透视分析应用案例与深度解析
  • Micro-F1分数(多选)