当前位置: 首页 > web >正文

【Pytorch✨】LSTM04 l理解长期记忆和短期记忆

1. C_t(长期记忆)的特点

它是细胞状态(Cell State),从 t=1 一直传到最后 。
更新方式
Ct = ft *Ct-1 + it *Ct

  • ft *Ct-1 → 旧记忆(经过遗忘门过滤)
  • it *Ct → 新记忆(经过输入门筛选)

关键点

  • C_t 只经过“加法”更新,不经过太多非线性变换,所以信息可以长期保留
  • 遗忘门 ft 可以让旧记忆部分保留很久(甚至很多时间步)
  • 它更像是一本“历史记录本”,有很强的跨时间步信息传递能力

类比

C_t 就像一个人的长期记忆库,你小时候的记忆、昨天的经历、今天早上的早餐……都可能存放在里面,除非你主动遗忘。


2. h_t(短期记忆)的特点

  • 它是输出状态(Hidden State),既包含当前时刻的重要信息,也受当前 C_t 调整

  • 计算方式

    • 先对 C_t 做一次 tanh 压缩(信息被过滤、范围限制)
    • 再用输出门 o_t 决定要输出多少

关键点

  • h_t 是每一步“加工过”的信息,带有很强的即时性
  • 因为每次都会重新计算,并且经过 tanh,所以 h_t 更容易受到当前输入和当前状态影响
  • 不适合长时间保留细节信息,更适合传递“当前时刻的精华”

类比

h_t 就像你现在正在和别人对话时,能马上说出口的内容,它依赖于你的长期记忆(C_t),但会根据当前情境提取一部分。


3. 总结对比

对象全称作用保留时间更新方式类比
C_tCell State长期记忆很久(跨多个时间步)遗忘门 + 输入门(加法更新)长期记忆库
h_tHidden State短期记忆 / 当前输出当前时间步(下一步会重新生成)输出门 + tanh当前说出口的话
http://www.xdnf.cn/news/17150.html

相关文章:

  • springboot博客实战笔记01
  • Linux-Day02.Linux指令
  • AI开灯的几种方法,与物理世界的交互过渡
  • 量化大型语言模型的评估
  • SparkSQL—sequence 函数用法详解
  • LeetCode 135:分糖果
  • Vue3学习笔记
  • AI小说创作工具体验:本地部署助力文学创作,Ollama+AIStarter一键搞定
  • Prompt Engineering
  • 嵌入式硬件篇---OpenMV存储
  • 疏老师-python训练营-Day35模型可视化推理
  • 华奥系科技奥采01:重新定义物联网数据采集标准
  • OpenLayers 详细开发指南 - 第八部分 - GeoJSON 转换与处理工具
  • DC-DC的分压反馈电阻怎么取值
  • 16_OpenCV_漫水填充(floodFill)
  • 最大重复子字符串
  • 数据分页异步后台导出excel
  • 2025年渗透测试面试题总结-2025年HW(护网面试) 85(题目+回答)
  • JMeter的基本使用教程
  • HarmonyOS 多屏适配最佳实践:基于 ArkUI 的响应式 UI 方案
  • 深入理解Java的SPI机制,使用auto-service库优化SPI
  • 北京JAVA基础面试30天打卡01
  • Neo4j 社区版 Mac 安装教程
  • 从HTTP到WebSocket:打造极速实时通讯体验
  • [3D数据存储] Archive (File Container) | 创建/写入/读取 | 存储格式HDF5
  • RocketMQ与Kafka 消费者组的‌重平衡操作消息顺序性对比
  • 低空三维多物理场耦合风洞试验,保证飞行器的性能安全是低空飞行的底线,是低空经济发展的基础
  • Ethereum: 深度解析Web3世界的合规之门, ERC-1400证券型代币标准
  • Apache Camel 中 ProducerTemplate
  • Hadoop HDFS 3.3.4 讲解~