当前位置：首页 > ds >正文

深度学习模型入门：从基础到前沿

ds 2025/7/3 8:50:11

深度学习模型入门：从基础到前沿

引言

深度学习作为人工智能领域的重要分支，已经取得了令人瞩目的成就。从图像识别到自然语言处理，从语音识别到推荐系统，深度学习模型正在各个领域发挥着关键作用。本文将介绍几种主流的深度学习模型，帮助读者了解它们的基本原理和应用场景。

基础神经网络模型

1. 多层感知机（MLP）

多层感知机是最基础的深度学习模型之一，由输入层、隐藏层和输出层组成：

import torch
import torch.nn as nnclass MLP(nn.Module):def __init__(self, input_size, hidden_size, output_size):super(MLP, self).__init__()self.layer1 = nn.Linear(input_size, hidden_size)self.relu = nn.ReLU()self.layer2 = nn.Linear(hidden_size, output_size)def forward(self, x):x = self.layer1(x)x = self.relu(x)x = self.layer2(x)return x

主要特点：

全连接结构
非线性激活函数
适用于结构化数据
易于理解和实现

2. 卷积神经网络（CNN）

CNN是处理图像数据的标准模型，具有以下特点：

class CNN(nn.Module):def __init__(self):super(CNN, self).__init__()self.conv1 = nn.Conv2d(3, 32, kernel_size=3)self.pool = nn.MaxPool2d(2, 2)self.conv2 = nn.Conv2d(32, 64, kernel_size=3)self.fc1 = nn.Linear(64 * 6 * 6, 120)self.fc2 = nn.Linear(120, 10)def forward(self, x):x = self.pool(F.relu(self.conv1(x)))x = self.pool(F.relu(self.conv2(x)))x = x.view(-1, 64 * 6 * 6)x = F.relu(self.fc1(x))x = self.fc2(x)return x

核心组件：

卷积层：提取特征
池化层：降维和特征选择
全连接层：分类或回归

序列模型

1. 循环神经网络（RNN）

RNN专门用于处理序列数据：

class RNN(nn.Module):def __init__(self, input_size, hidden_size, output_size):super(RNN, self).__init__()self.hidden_size = hidden_sizeself.rnn = nn.RNN(input_size, hidden_size, batch_first=True)self.fc = nn.Linear(hidden_size, output_size)def forward(self, x):h0 = torch.zeros(1, x.size(0), self.hidden_size)out, _ = self.rnn(x, h0)out = self.fc(out[:, -1, :])return out

应用场景：

自然语言处理
时间序列预测
语音识别

2. 长短期记忆网络（LSTM）

LSTM是RNN的改进版本，解决了长期依赖问题：

class LSTM(nn.Module):def __init__(self, input_size, hidden_size, output_size):super(LSTM, self).__init__()self.hidden_size = hidden_sizeself.lstm = nn.LSTM(input_size, hidden_size, batch_first=True)self.fc = nn.Linear(hidden_size, output_size)def forward(self, x):h0 = torch.zeros(1, x.size(0), self.hidden_size)c0 = torch.zeros(1, x.size(0), self.hidden_size)out, _ = self.lstm(x, (h0, c0))out = self.fc(out[:, -1, :])return out

优势：

长期记忆能力
梯度消失问题缓解
更复杂的序列建模

注意力机制模型

1. Transformer

Transformer是当前最流行的深度学习架构之一：

class Transformer(nn.Module):def __init__(self, d_model, nhead, num_layers):super(Transformer, self).__init__()self.encoder_layer = nn.TransformerEncoderLayer(d_model, nhead)self.transformer_encoder = nn.TransformerEncoder(self.encoder_layer, num_layers)self.fc = nn.Linear(d_model, output_size)def forward(self, src):output = self.transformer_encoder(src)output = self.fc(output)return output

特点：

自注意力机制
并行计算
全局依赖关系建模

2. BERT

BERT是基于Transformer的双向预训练模型：

from transformers import BertModel, BertTokenizerclass BertClassifier(nn.Module):def __init__(self, num_classes):super(BertClassifier, self).__init__()self.bert = BertModel.from_pretrained('bert-base-uncased')self.classifier = nn.Linear(768, num_classes)def forward(self, input_ids, attention_mask):outputs = self.bert(input_ids=input_ids, attention_mask=attention_mask)pooled_output = outputs[1]return self.classifier(pooled_output)

应用：

文本分类
问答系统
命名实体识别

生成模型

1. 生成对抗网络（GAN）

GAN用于生成逼真的数据：

class Generator(nn.Module):def __init__(self, latent_dim):super(Generator, self).__init__()self.model = nn.Sequential(nn.Linear(latent_dim, 256),nn.LeakyReLU(0.2),nn.Linear(256, 512),nn.LeakyReLU(0.2),nn.Linear(512, 1024),nn.Tanh())def forward(self, z):return self.model(z)class Discriminator(nn.Module):def __init__(self):super(Discriminator, self).__init__()self.model = nn.Sequential(nn.Linear(1024, 512),nn.LeakyReLU(0.2),nn.Linear(512, 256),nn.LeakyReLU(0.2),nn.Linear(256, 1),nn.Sigmoid())def forward(self, x):return self.model(x)

应用：

图像生成
风格迁移
数据增强

2. 变分自编码器（VAE）

VAE用于生成和重构数据：

class VAE(nn.Module):def __init__(self, input_size, hidden_size, latent_size):super(VAE, self).__init__()self.encoder = nn.Sequential(nn.Linear(input_size, hidden_size),nn.ReLU(),nn.Linear(hidden_size, hidden_size),nn.ReLU())self.fc_mu = nn.Linear(hidden_size, latent_size)self.fc_var = nn.Linear(hidden_size, latent_size)self.decoder = nn.Sequential(nn.Linear(latent_size, hidden_size),nn.ReLU(),nn.Linear(hidden_size, input_size),nn.Sigmoid())def encode(self, x):h = self.encoder(x)return self.fc_mu(h), self.fc_var(h)def decode(self, z):return self.decoder(z)