当前位置: 首页 > ds >正文

深度学习--循环神经网络RNN

文章目录

  • 前言
  • 一、RNN介绍
    • 1、传统神经网络存在的问题
    • 2、RNN的核心思想
    • 3、 RNN的局限性
  • 二、RNN基本结构
    • 1、RNN基本结构
    • 2、推导
    • 3、注意
    • 4、循环的由来
    • 5、再谈RNN的局限
  • 总结


前言

循环神经网络(RNN)的起源可以追溯到1982年,由Saratha Sathasivam提出的霍普菲尔德网络(Hopfield network)。 然而,早期的RNN结构相对简单,且在实际应用中受到了一定的限制。 随着深度学习技术的不断发展,RNN模型在结构和性能上得到了显著的改进,成为处理序列数据的强大工具。


一、RNN介绍

RNN(Recurrent Neural Network,循环神经网络)是一种用于处理序列数据的神经网络架构。其在处理序列输入时具有记忆性,可以保留之前输入的信息并继续作为后续输入的一部分进行计算。
在这里插入图片描述
如上图所示,假如有一句话,“今天周六不上班”,将其分词成“今天”、“周六”、“不”、“上班”,第一个词的词向量表示x1,第二个单词的词向量表示为x2,依次表示所有x,然后首先第一个词向量x1传入h1,然后偏置项h0也同步传入,得到一个结果再传入h2,h2再得到传入的x2传入h3…,继续像上述流程一样,以此保存了所有的信息并得到最终结果。

1、传统神经网络存在的问题

  • 无法训练出具有顺序的数据。模型搭建时没有考虑数据上下之间的关系。

2、RNN的核心思想

  • 循环结构:RNN通过隐藏态h(Hidden State)在不同参数之间传递信息,使网络具备记忆能力。当前步骤的输入不仅包括当前数据,还包含上一步的隐藏状态,从而保留数据信息。

  • 参数共享:所有参数共享相同的权重参数

3、 RNN的局限性

  • 长距离依赖问题:长序列中早期信息难以传递到后续步骤,因梯度消失/爆炸导致训练困难。

  • 梯度消失:反向传播时梯度随时间步指数衰减,参数无法更新。

  • 梯度爆炸:梯度指数增长,导致数值溢出。


二、RNN基本结构

1、RNN基本结构

在这里插入图片描述


  • 下方蓝色的是输入层,
  • 中间的矩形是隐藏层,
  • 上方紫色的是输出层

2、推导

如下图所示,隐状态h相当于一个函数,f为一个激活函数,其有中的参数U、W、b在每一步都是一样的。
在这里插入图片描述

h0乘以一个参数矩阵W加上x1乘以一个参数矩阵U;
再加一个偏置项b,得到一个结果;
将这个结果传入激活函数f,进行特征提取;
h1.h2…hx如是,继续叠加。

在这里插入图片描述
对于结果y也会乘以一个矩阵V,加上偏置c后传入一个Softmax交叉熵损失函数,一般情况下y1的用处不大,最重要的是最后一个,例如下图的y4,因为y4涵盖了前面所有的词的特征。

3、注意

  • RNN结构中输入是x1, x2, …xn,输出为y1, y2, …yn,也就是说,输入和输出序列必须要是等长的。
  • 每一次训练中计算用的u,v,w,b都是一样的 ,训练完反向传播会进行更新。

4、循环的由来

在这里插入图片描述

5、再谈RNN的局限

  • 当出现“我的职业是程序员,…,我最擅长的是电脑”。需要预测最后的词“电脑”。

  • 当前的信息建议下一个词可能是一种技能,但是如果我们需要弄清楚是什么技能,需要先前提到的离当前位置很远的“职业是程序员”的上下文。

  • 这说明相关信息和当前预测位置之间的间隔就变得相当的大。

  • 在理论上,RNN绝对可以处理这样的长期依赖问题。

  • 人们可以仔细挑选参数来解决这类问题中的最初级形式,但在实践中,RNN则没法太好的学习到这些知识。

  • 这使得模型难以学习长距离依赖关系
    原因是:梯度会随着时间的推移不断下降减少,而当梯度值变得非常小时,就不会继续学习。​

总结

阅读本篇会发现RNN有很多问题, 改进方案:LSTM与GRU,之后会讲^^。

http://www.xdnf.cn/news/1939.html

相关文章:

  • 自动化必备技能:JSONPath介绍
  • 【粉丝福利社】DeepSeek企业级AI应用实践
  • JPEG 解码 第28次CCF-CSP计算机软件能力认证
  • 《天道》:我发现能压制小人的人,都有一个共同点
  • 2025毕业生必看!用AI工具如何快速生成万字高质量论文
  • SQL Server 2019 安装与配置详细教程
  • Web 服务架构与技术组件概述
  • AI 开发工具提示词集体开源!解锁 Cursor、Cline、Windsurf 等工具的核心逻辑
  • 信创系统上使用 dpkg-repack 工具打包系统已安装软件
  • 用于渗透测试人员的 Burpsuite:Logger++
  • 二重积分的计算
  • 软件设计模式与体系结构:基于Java实现管道-过滤器架构
  • mapbox高阶,使用本地dem数据、等高线面数据实现千里江山图效果
  • Shell脚本-流程控制语句应用案例
  • 从代码学习深度学习 - 微调 PyTorch 版
  • 数据结构初阶:排序
  • 【MySQL专栏】MySQL数据库的复合查询语句
  • Pycharm(六):可变与不可变类型
  • 【时时三省】(C语言基础)循环程序举例
  • 手把手搭建AIGC应用:从图像生成到智能写作全实战
  • 使用 n8n 实现你的第一个爬虫程序:从零到自动化
  • 【金仓数据库征文】- 金融HTAP实战:KingbaseES实时风控与毫秒级分析一体化架构
  • 飞牛 NAS 整机要来了?!
  • C#高级语法--接口
  • 初识HashMap
  • 华为L410上制作内网镜像模板:在客户端配置模板内容
  • 施工配电箱巡检二维码应用
  • 【EDA】EDA中聚类(Clustering)和划分(Partitioning)
  • STM32F103C8T6信息
  • 【金仓数据库征文】-不懂数据库也能看懂!一文解析金仓技术介绍以典型应用