当前位置: 首页 > ds >正文

一天搞懂深度学习--李宏毅教程笔记

目录

  • 1. Introduction of Deep Learning
    • 1.1. Neural Network - A Set of Function
    • 1.2. Learning Target - Define the goodness of a function
  • 2. Tips for Training Deep Neural Network
  • 3. Variant of Neural Network
  • 4. Next Wave

对一天搞懂深度学习–李宏毅教程分享内容做读书笔记,对深度学习中的神经网络进行介绍


1. Introduction of Deep Learning

深度常用于语音识别、手写文字识别、围棋、对话等多个领域。

深度学习的目标是构建一个模型,这个模型就是Network就是指神经网络,深度学习就是构建这个模型的过程。构建这个模型的过程只有三步:

在这里插入图片描述

1.1. Neural Network - A Set of Function

首先介绍这个模型(神经网络)是什么样子的。

先介绍神经元,Neuron也是一种函数,如下所示

在这里插入图片描述

其中激活函数Activation Function为Sigmoid:

在这里插入图片描述
由多个神经元相互全连接即为全连接的反向网络Fully Connect Feedforward Network,由多层Layers组成(不同模型Layers不同),如下图所示

在这里插入图片描述
记作 { y 1 , . . . y M } = f ( { x 1 , . . . , x N } ) \{y_1,...y_M\}=f(\{x_1,...,x_N\}) {y1,...yM}=f({x1,...,xN})

最终的输出使用softmax激活函数进行归一化,用于将每种输出转换为概率分布

在这里插入图片描述
最终得到

在这里插入图片描述

神经网络算法 - 一文搞懂 Softmax 函数

神经网络本质就是一种函数关系,不同的input vector可得到不同的output vector

在这里插入图片描述

1.2. Learning Target - Define the goodness of a function

知道模型的样子之后,深度学习的目标是找到神经网络中最合适的weights和bias。

怎么定义最合适?最合适的意思是,这个模型的输出是我们想要的理想输出。所以,使用已经标记好的训练数据喂给模型,模型的输出应该是我们的理想期望值。

例如,手写识别场景下,输入左图,期望输出应该是y2为最大值(表示模型的预期输出是2),使用softmax激活函数则期望输出为 y ^ = [ 0 , 1 , 0 , . . . , 0 ] \hat{y}=[0,1,0,...,0] y^=[0,1,0,...,0]

在这里插入图片描述
所以,模型应该适应我们的训练数据。即给定训练数据输入 { x ^ 1 , . . . , x ^ 256 } \{\hat{x}_1,...,\hat{x}_{256}\} {x^1,...,x^256},模型的输出应该最接近我们的训练数据输出 { y ^ 1 , . . . , y ^ 10 } \{\hat{y}_1,...,\hat{y}_{10}\} {y^1,...,y^10}

最接近的含义就是square error最小,这个square error就叫损失函数,如下,其中R就为训练样本个数
l r = ∑ i = 1 R ( y i − y ^ i ) 2 l_r=\sum_{i=1}^{R}{(y_i-\hat{y}_i)^2} lr=i=1R(yiy^i)2
而且满足
{ y ^ 1 , . . . y ^ 10 } = f ( { w 1 , . . . , w N , b 1 , . . . , b M } , { x ^ 1 , . . . , x ^ 256 } ) \{\hat{y}_1,...\hat{y}_{10}\}=f(\{w_1,...,w_{N},b_1,...,b_{M}\},\{\hat{x}_1,...,\hat{x}_{256}\}) {y^1,...y^10}=f({w1,...,wN,b1,...,bM},{x^1,...,x^256})

例如上图损失函数就为 l = ( y 1 − 0 ) 2 + ( y 2 − 1 ) 2 + ( y 3 − 0 ) 2 + . . . + ( y 10 − 0 ) 2 l=(y_1-0)^2+(y_2-1)^2+(y_3-0)^2+...+(y_{10}-0)^2 l=(y10)2+(y21)2+(y30)2+...+(y100)2

那么整个模型的损失函数就为

l = ∑ i = 1 R l r l=\sum_{i=1}^{R}{l_r} l=i=1Rlr

所以,深度学习的终极目的是,寻找合适的 { w 1 , . . . , w N , b 1 , . . . , b M } \{w_1,...,w_{N},b_1,...,b_{M}\} {w1,...,wN,b1,...,bM}使上述 l l l最小。

2. Tips for Training Deep Neural Network

3. Variant of Neural Network

4. Next Wave

http://www.xdnf.cn/news/10543.html

相关文章:

  • c++面向对象第4天---拷贝构造函数与深复制
  • Microsoft Fabric - 尝试一下Data Factory一些新的特性(2025年5月)
  • 爱其实很简单
  • leetcode179_最大数
  • 每日八股文6.1
  • python 将音乐和人声分离
  • 支持向量机(SVM):解锁数据分类与回归的强大工具
  • vscode实用配置
  • 设计模式——桥接设计模式(结构型)
  • 如何设计一个支持线上线下的通用订单模块 —— 面向本地生活服务行业的架构思路
  • [蓝桥杯]剪格子
  • C++命名空间深度解析
  • NodeJS全栈开发面试题讲解——P1Node.js 基础与核心机制
  • Go语言常见接口设计技巧-《Go语言实战指南》
  • AGI大模型(35):Advanced RAG之Pre-Retrieval(预检索)优化——查询优化
  • 【Tauri2】049——upload
  • 【CF】Day72——Codeforces Round 890 (Div. 2) CDE1 (二分答案 | 交互 + 分治 | ⭐树上背包)
  • 归一化相关
  • 数据库安全性
  • 函数栈帧深度解析:从寄存器操作看函数调用机制
  • OneForAll 使用手册
  • 【Oracle】数据备份与恢复
  • DeepSeek 赋能智慧消防:以 AI 之力筑牢城市安全 “防火墙”
  • WEBSTORM前端 —— 第3章:移动 Web —— 第2节:空间转换、转化
  • 8088 单板机 汇编 NMI 中断程序示例 (脱离 DOS 环境)
  • NX811NX816美光颗粒固态NX840NX845
  • Linux进程间通信----简易进程池实现
  • 搜索引擎2.0(based elasticsearch6.8)设计与实现细节(完整版)
  • 项目练习:element ui 的icon放在button的右侧
  • React 路由管理与动态路由配置实战