当前位置：首页 > backend >正文

【学习笔记】机器学习(Machine Learning) | 第五章(3)| 分类与逻辑回归

backend 2025/7/5 0:00:55

机器学习（Machine Learning）

简要声明

基于吴恩达教授(Andrew Ng)课程视频
BiliBili课程资源

文章目录

机器学习（Machine Learning）
- 简要声明
三、代价函数
- 平方误差代价函数
- 逻辑回归的损失函数
- - 损失函数的性质
- 逻辑回归的代价函数
- 代价函数的凸性
- 简化的损失函数
- 简化的代价函数

一、逻辑回归的基本原理

二、决策边界

三、代价函数

平方误差代价函数

在逻辑回归中，如果我们直接使用线性回归的平方误差代价函数：

$J(\overrightarrow{w}, b) = \frac{1}{m} \sum_{i=1}^{m} \frac{1}{2} (f_{\overrightarrow{w}, b}(\overrightarrow{x}^{(i)}) - y^{(i)})^2$

其中， $f_{\overrightarrow{w}, b}(\overrightarrow{x}) = \overrightarrow{w} \cdot \overrightarrow{x} + b$ 是线性回归模型的输出。

然而，对于逻辑回归，这种代价函数可能会导致非凸问题，使得梯度下降算法难以收敛到全局最小值。

在这里插入图片描述
线性回归

并不像线性回归的“汤碗”那么光滑

逻辑回归的损失函数

为了解决这个问题，逻辑回归采用了不同的损失函数。对于单个训练样本 $(\overrightarrow{x}^{(i)}, y^{(i)})$ ，逻辑回归的损失函数定义为：

$L(f_{\overrightarrow{w}, b}(\overrightarrow{x}^{(i)}), y^{(i)}) = \begin{cases} -log(f_{\overrightarrow{w}, b}(\overrightarrow{x}^{(i)})) & \text{if } y^{(i)} = 1 \\ -log(1 - f_{\overrightarrow{w}, b}(\overrightarrow{x}^{(i)})) & \text{if } y^{(i)} = 0 \end{cases}$

其中， $f_{\overrightarrow{w}, b}(\overrightarrow{x}) = \frac{1}{1 + e^{-(\overrightarrow{w} \cdot \overrightarrow{x} + b)}}$ 是逻辑回归模型的输出。

损失函数的性质

当 $y^{(i)} = 1$ 时：
- 如果 $f_{\overrightarrow{w}, b}(\overrightarrow{x}^{(i)}) \to 1$ ，损失 $\to 0$
- 如果 $f_{\overrightarrow{w}, b}(\overrightarrow{x}^{(i)}) \to 0$ ，损失 $\to \infty$
当 $y^{(i)} = 0$ 时：
- 如果 $f_{\overrightarrow{w}, b}(\overrightarrow{x}^{(i)}) \to 0$ ，损失 $\to 0$
- 如果 $f_{\overrightarrow{w}, b}(\overrightarrow{x}^{(i)}) \to 1$ ，损失 $\to \infty$

这种损失函数的设计使得模型在预测错误时付出更大的代价，从而激励模型尽可能准确地预测。
在这里插入图片描述

逻辑回归的代价函数

逻辑回归的代价函数是所有训练样本损失的平均值：

$J(\overrightarrow{w}, b) = \frac{1}{m} \sum_{i=1}^{m} L(f_{\overrightarrow{w}, b}(\overrightarrow{x}^{(i)}), y^{(i)})$

展开后为：

$J(\overrightarrow{w}, b) = \frac{1}{m} \sum_{i=1}^{m} \begin{cases} -log(f_{\overrightarrow{w}, b}(\overrightarrow{x}^{(i)})) & \text{if } y^{(i)} = 1 \\ -log(1 - f_{\overrightarrow{w}, b}(\overrightarrow{x}^{(i)})) & \text{if } y^{(i)} = 0 \end{cases}$

代价函数的凸性

逻辑回归的代价函数是凸的，这意味着它只有一个全局最小值，梯度下降算法可以保证收敛到这个全局最小值。

相比之下，平方误差代价函数在逻辑回归中可能会导致非凸问题，使得梯度下降算法陷入局部最小值。
在这里插入图片描述

简化的损失函数

逻辑回归的损失函数可以简化为一个统一的表达式：

$L(f_{\overrightarrow{w}, b}(\overrightarrow{x}^{(i)}), y^{(i)}) = - y^{(i)} \log(f_{\overrightarrow{w}, b}(\overrightarrow{x}^{(i)})) - (1 - y^{(i)}) \log(1 - f_{\overrightarrow{w}, b}(\overrightarrow{x}^{(i)}))$

这个表达式结合了两种情况：

当 $y^{(i)} = 1$ 时，损失函数为 $\log(f_{\overrightarrow{w}, b}(\overrightarrow{x}^{(i)}))$
当 $y^{(i)} = 0$ 时，损失函数为 $\log(1 - f_{\overrightarrow{w}, b}(\overrightarrow{x}^{(i)}))$

简化的代价函数

逻辑回归的代价函数也可以相应地简化为：

$J(\overrightarrow{w}, b) = - \frac{1}{m} \sum_{i=1}^{m} \left[ y^{(i)} \log(f_{\overrightarrow{w}, b}(\overrightarrow{x}^{(i)})) + (1 - y^{(i)}) \log(1 - f_{\overrightarrow{w}, b}(\overrightarrow{x}^{(i)})) \right]$