当前位置：首页 > java >正文

小杰机器学习（two）——导数、损失函数、斜率极值最值、微分规则、切平面与偏导数、梯度。

java 2025/9/7 5:23:37

1.求导法则

（1）在机器学习中微积分的作用

在机器学习和深度学习中，需要衡量预测的结果和实际结果的一个差异，使用一个叫损失函数的数学打分器比对。损失函数越小，表示结果预测的准；损失函数越大表示结果预测的不准。

比如，如果我们预测明天下雨的概率是80%，但实际上明天是晴天，那么我们的预测就不准，损失函数的值就会比较高。反之，如果我们预测明天下雨的概率是5%，而明天确实是晴天，虽然我们还是预测错了，但相对来说，我们预测得“更接近”实际情况，所以损失函数的值就会低一些。

损失函数在机器学习和深度学习中非常重要，因为它指导着模型的学习过程，让模型知道应该如何调整自己的参数，以便更好地预测未来的结果。

在机器学习或者深度学习中，绝大部分任务是构建一个损失函数，然后使其最小化，这个优化的过程就是微分。

以上过程在后面学习的框架中可以自动计算，但是背后的数学原理还是需要简单学习的。

（2）导数

【例子1】小车在马路上匀速前进，一共900m，小车走了30s。

在17.5秒时，小车的速度多快？

答案：900/30=30m/s

【例子2】小车在马路上非匀速前进，一共900m，小车走了30s。

右表表示每间隔5s测一次数据。

在17.5秒时，小车的速度多快？

答案：(725-440)/(20-15) = 57m/s

把多个时间点细分，例如15-20秒，每秒测一次。

在17.5秒时，小车的速度多快？

答案：(629-571)/(18-17) = 58m/s

通过上面的计算可以得到结论，测速的间隔越小，速度越精准。

此时如果把时间间隔趋向于无穷小，就可以使速度结果无限趋向于真实值。

速度的值，实际上就是所在点的切线斜率。

速度 = 瞬时变化率

拉格朗日表示法：

莱布尼茨表示法：

导数是函数，如果把上图中每个点的斜率都用一个函数表示，这个函数就是“导函数”，通常叫为“导数”。

导函数表示的切线集合可以描述：

函数的整体变化趋势
也可以表示部分的变化趋势
还可以表示某个点的变化趋势

（3）斜率的极值和最值

【例子】还是刚才的小车，但是小车学会了倒车。

Q1：哪里的速度为0？

A1：斜率为0的点表示速度为0。

Q2：哪里的距离起点最近/最远？

A2：最远或最近的点斜率都为0。

如果上面的图像是损失函数，那么斜率为0的点可能就是损失函数最小值或最大值。

极小值/极大值：局部范围的极值。

最小值/最大值：全局的极值。

这些内容是以后机器学习梯度下降的重要思想。

（4）常见的导数

① 常数

结论：

② 线性函数

结论：

③ 二次方程

结论：

④ 其他函数

⑤不可微函数

如果一个点存在导数，那么该点的函数会被该点微分。也就是说如果要使函数在整个区间内保持微分，则表示区间中每个点都必须存在导数。

实际上，并不是所有的函数在每个点都能找到导数，这样的函数就是不可微函数，例如：

在(0,0)点有无数个切线，所以此点不能求导，这个函数就是不可微函数。

再例如

在(0,0)点切线与y轴重合，表示无穷大，无法求导，此函数也是不可微函数。

（5）导数的性质（微分规则）

①乘以标量

已知，那么的导数是多少？

答案：

② 加和法则

绿色为人在船上奔跑的时间和距离，蓝色为船离开码头的时间和距离，红色为人相对码头的时间和距离。

结论：

人距离码头的距离 = 船离开码头的距离+人奔跑的距离
人相对码头的速度 = 船相对码头的速度+人相对于船的速度

③乘法法则

第一个函数是g(x)，第二个函数是h(x)，f(x)=g(x)h(x)，求f'(x)

答案：

④ 链式法则

链式法则（Chain Rule）是微积分中用于求复合函数导数的一个基本法则。如果你有一个复合函数，比如，其中y 是 x的函数，g(x)是内函数，f是外函数，那么链式法则允许你分别求出外函数和内函数的导数，然后将它们相乘来求复合函数的导数。

具体来说，链式法则可以表述为：

这里的是外函数f对内函数g(x)的导数，而是内函数g(x)对自变量x的导数。

【例子】

假设有一个复合函数，求这个函数对x的导数？

解：

1. 确定内函数和外函数

内函数：

外函数：

2. 分别求导

外函数对内函数的导数：

内函数对x的导数：

3. 应用链式法则

（6）切平面与偏导数

①输入和输出的数量

之前函数都是一个输入和输出，现在可以拓展到两个输入和一个输出。

②偏导数

如果把输入的x和y其中一个看做是常数，此时导数就相当于之前的平面导数了，即一个输入的导数。

例如当y=4时，可以求出上图中的曲线的偏导数：

以上过程就是求偏导的过程，同样也可以让x等于常数，同样可以求偏导。

（8）梯度

可以认为梯度是偏导数的集合。

以为例，说明梯度的概念。

http://www.xdnf.cn/news/20342.html

相关文章：

Rust 登堂之 Deref 解引用（十）

一文掌握工业缺陷检测项目实战（Pytorch算法训练、部署、C++ DLL制作、Qt集成）

微信小程序（uniapp）实现连接蓝牙

cuda-NCCL笔记（1）-- 初步了解使用NCCL

Python 多线程与多进程入门指南

Windows 设备音频录制 | WASAPI 音频数据采集 / 环回录制

【基础-单选】singleton模式下首次进入的执行顺序是

C++趣味编程：鸡兔同笼与票务计算

cocos2d. 3.17.2 c++如何实现下载断点续传zip压缩包带进度条

【VoNR】VoNR 不等于 VoLTE on 5G

vcenter管理的4台安装了esxi机器组成的HA，故障后自恢复理解

飞牛NAS配置FRP内网穿透：实现远程访问

DocuAI深度测评：自动文档生成工具如何高效产出规范API文档与数据库表结构文档？

【教学类-36-10】20240905（通义万相）-A4各种大小的鱼制作“吐泡泡的鱼”01版

Python反向迭代完全指南：从基础到高性能系统设计

C++从入门到精通（视频教程）

More Effective C++ 条款30：代理类

2025高中文凭能考的证书大全

2021/07 JLPT听力原文问题一 4番

第八章惊喜05 笑笑点评团队

Claude Code成本浪费严重？80%开支可省！Token黑洞解密与三层省钱攻略

使用YOLO11训练鸟类分类模型

AI应用开发-技术架构 PAFR介绍

JS魔法中介：Proxy和Reflect为何形影不离？

【1】MOS管的结构及其工作原理

Linux系统： docker安装RagFlow教程

【工具变量】上市公司企业海外业务收入数据集（2003-2024年）

2025年经济学专业女生必考证书指南：打造差异化竞争力

Netty从0到1系列之JDK零拷贝技术