当前位置: 首页 > news >正文

李沐--动手学深度学习--GRU

1.GRU从零开始实现

#9.1.2GRU从零开始实现
import torch
from torch import nn
from d2l import torch as d2l#首先读取 8.5节中使用的时间机器数据集
batch_size,num_steps = 32,35
train_iter,vocab = d2l.load_data_time_machine(batch_size,num_steps)
#初始化模型参数
def get_params(vocab_size,num_hiddens,device):num_inputs = num_outputs = vocab_sizedef normal(shape):return torch.randn(size=shape,device=device)*0.01def three():return (normal((num_inputs,num_hiddens)),normal((num_hiddens,num_hiddens)),torch.zeros(num_hiddens,device=device))W_xz,W_hz,b_z = three()  #更新门参数W_xr,W_hr,b_r = three()  #重置门参数W_xh,W_hh,b_h = three()  #候选隐状态参数#输出层参数W_hq = normal((num_hiddens,num_outputs))b_q = torch.zeros(num_outputs,device=device)#附加梯度params = [W_xz,W_hz,b_z,W_xr,W_hr,b_r,W_xh,W_hh,b_h,W_hq,b_q]for param in params:param.requires_grad_(True)return params
#定义隐状态的初始化函数init_gru_state
def init_gru_state(batch_size,num_hiddens,device):return (torch.zeros((batch_size,num_hiddens),device=device),)
#门控循环单元模型
def gru(inputs,state,params):W_xz,W_hz,b_z,W_xr,W_hr,b_r,W_xh,W_hh,b_h,W_hq,b_q = paramsH, = stateoutputs = []for X in inputs:Z = torch.sigmoid((X @ W_xz)+(H @ W_hz) + b_z)R = torch.sigmoid((X @ W_xr)+(H @ W_hr) + b_r)H_tilda = torch.tanh((X @ W_xh)+((R*H) @ W_hh) + b_h)H = Z * H + (1-Z) * H_tildaY = H @ W_hq + b_qoutputs.append(Y)return torch.cat(outputs,dim=0),(H,)
#训练与预测:打印输出训练集的困惑度,以及前缀“time traveler”和“traveler”的预测序列上的困惑度。
vocab_size,num_hiddens,device = len(vocab),256,d2l.try_gpu()
num_epochs,lr = 500,1
model = d2l.RNNModelScratch(len(vocab),num_hiddens,device,get_params,init_gru_state,gru)
print(d2l.train_ch8(model,train_iter,vocab,lr,num_epochs,device))
d2l.plt.show()

2.GRU简洁实现

#9.1.3简洁实现
import torch
from torch import nn
from d2l import torch as d2l
#首先读取 8.5节中使用的时间机器数据集
batch_size,num_steps = 32,35
train_iter,vocab = d2l.load_data_time_machine(batch_size,num_steps)vocab_size,num_hiddens,device = len(vocab),256,d2l.try_gpu()
num_epochs,lr = 500,1num_inputs = vocab_size
gru_layer = nn.GRU(num_inputs,num_hiddens)
model = d2l.RNNModel(gru_layer,len(vocab))
model = model.to(device)
print(d2l.train_ch8(model,train_iter,vocab,lr,num_epochs,device))
d2l.plt.show()
http://www.xdnf.cn/news/950113.html

相关文章:

  • RNN避坑指南:从数学推导到LSTM/GRU工业级部署实战流程
  • 人工智能与无人机的组合如何撕开俄空天军的 “核心“
  • [docker]镜像操作:关于docker pull、save、load一些疑惑解答
  • ubuntu 22.04搭建SOC开发环境
  • “详规一张图”——新加坡土地利用数据
  • 使用大模型预测巨细胞病毒视网膜炎的技术方案
  • 【AI学习】李广密与阶跃星辰首席科学家张祥雨对谈:多模态发展的历史和未来
  • 【向量库】Weaviate概述与架构解析
  • 如何做好一份技术文档?从规划到实践的完整指南
  • 无人机视觉跟踪模块技术解析!
  • 无人机EN 18031欧盟网络安全认证详细解读
  • EasyRTC音视频实时通话功能在WebRTC与智能硬件整合中的应用与优势
  • 【数据结构】图论最短路径算法深度解析:从BFS基础到全算法综述​
  • 安宝特方案丨船舶智造AR+AI+作业标准化管理系统解决方案(维保)
  • DCMTKOpenCV-构建DICOM图像查看器
  • 保姆级教程:在无网络无显卡的Windows电脑的vscode本地部署deepseek
  • 在鸿蒙HarmonyOS 5中使用DevEco Studio实现指南针功能
  • 【磁盘】每天掌握一个Linux命令 - iostat
  • WEB3全栈开发——面试专业技能点P7前端与链上集成
  • Django 5 学习笔记总纲
  • 13.9 LLaMA 3+多模态提示工程:革命性语言学习Agent架构全解析
  • react-pdf(pdfjs-dist)如何兼容老浏览器(chrome 49)
  • 大语言模型(LLM)中的KV缓存压缩与动态稀疏注意力机制设计
  • 篇章二 论坛系统——系统设计
  • C/C++ 面试复习笔记(5)
  • nuclio的配置文件yaml和docker compose的yaml的区别
  • 依赖注入(Dependency Injection)
  • 关于YOLOV5—Mosaic数据增强
  • 电源滤波器:不起眼却如何保障电子设备电源?
  • 1091 Acute Stroke (30)