当前位置：首页 > ds >正文

一天搞懂深度学习--李宏毅教程笔记

ds 2025/8/21 21:33:52

1. Introduction of Deep Learning

深度常用于语音识别、手写文字识别、围棋、对话等多个领域。

深度学习的目标是构建一个模型，这个模型就是Network就是指神经网络，深度学习就是构建这个模型的过程。构建这个模型的过程只有三步：

在这里插入图片描述

1.1. Neural Network - A Set of Function

首先介绍这个模型（神经网络）是什么样子的。

先介绍神经元，Neuron也是一种函数，如下所示

在这里插入图片描述

其中激活函数Activation Function为Sigmoid：

在这里插入图片描述
由多个神经元相互全连接即为全连接的反向网络Fully Connect Feedforward Network，由多层Layers组成（不同模型Layers不同），如下图所示

在这里插入图片描述
记作 ${y_1,...y_M\}=f(\{x_1,...,x_N\})$

最终的输出使用softmax激活函数进行归一化，用于将每种输出转换为概率分布

在这里插入图片描述
最终得到

在这里插入图片描述

神经网络算法 - 一文搞懂 Softmax 函数

神经网络本质就是一种函数关系，不同的input vector可得到不同的output vector

在这里插入图片描述

1.2. Learning Target - Define the goodness of a function

知道模型的样子之后，深度学习的目标是找到神经网络中最合适的weights和bias。

怎么定义最合适？最合适的意思是，这个模型的输出是我们想要的理想输出。所以，使用已经标记好的训练数据喂给模型，模型的输出应该是我们的理想期望值。

例如，手写识别场景下，输入左图，期望输出应该是y2为最大值（表示模型的预期输出是2），使用softmax激活函数则期望输出为 $\hat{y}=[0,1,0,...,0]$

在这里插入图片描述
所以，模型应该适应我们的训练数据。即给定训练数据输入 $\{\hat{x}_1,...,\hat{x}_{256}\}$ ，模型的输出应该最接近我们的训练数据输出 $\{\hat{y}_1,...,\hat{y}_{10}\}$ 。

最接近的含义就是square error最小，这个square error就叫损失函数，如下，其中R就为训练样本个数
$l_r=\sum_{i=1}^{R}{(y_i-\hat{y}_i)^2}$
而且满足
$\{\hat{y}_1,...\hat{y}_{10}\}=f(\{w_1,...,w_{N},b_1,...,b_{M}\},\{\hat{x}_1,...,\hat{x}_{256}\})$