当前位置：首页 > news >正文

R9打卡——RNN实现阿尔茨海默病诊断（优化特征选择版）

news 2025/7/5 15:33:06

🍨 本文为🔗365天深度学习训练营中的学习记录博客

🍖 原作者：K同学啊

1.检查GPU

import numpy as np
import pandas as pd
import torch
from torch import nn
import torch.nn.functional as F
import seaborn as sns#设置GPU训练，也可以使用CPU
device=torch.device("cuda" if torch.cuda.is_available() else "cpu")
device

2.查看数据

import pandas as pd  
import numpy as np 
import matplotlib.pyplot as plt  
import seaborn as sns 
import torch  
import torch.nn as nn
from torch.utils.data import DataLoader, TensorDatasetplt.rcParams["font.sans-serif"] = ["Microsoft YaHei"]  # 显示中文
plt.rcParams['axes.unicode_minus'] = False		# 显示负号data_df = pd.read_csv("data/alzheimers_disease_data.csv")data_df.head()# 标签中文化
data_df.rename(columns={ "Age": "年龄", "Gender": "性别", "Ethnicity": "种族", "EducationLevel": "教育水平", "BMI": "身体质量指数（BMI）", "Smoking": "吸烟状况", "AlcoholConsumption": "酒精摄入量", "PhysicalActivity": "体育活动时间", "DietQuality": "饮食质量评分", "SleepQuality": "睡眠质量评分", "FamilyHistoryAlzheimers": "家族阿尔茨海默病史", "CardiovascularDisease": "心血管疾病", "Diabetes": "糖尿病", "Depression": "抑郁症史", "HeadInjury": "头部受伤", "Hypertension": "高血压", "SystolicBP": "收缩压", "DiastolicBP": "舒张压", "CholesterolTotal": "胆固醇总量", "CholesterolLDL": "低密度脂蛋白胆固醇（LDL）", "CholesterolHDL": "高密度脂蛋白胆固醇（HDL）", "CholesterolTriglycerides": "甘油三酯", "MMSE": "简易精神状态检查（MMSE）得分", "FunctionalAssessment": "功能评估得分", "MemoryComplaints": "记忆抱怨", "BehavioralProblems": "行为问题", "ADL": "日常生活活动（ADL）得分", "Confusion": "混乱与定向障碍", "Disorientation": "迷失方向", "PersonalityChanges": "人格变化", "DifficultyCompletingTasks": "完成任务困难", "Forgetfulness": "健忘", "Diagnosis": "诊断状态", "DoctorInCharge": "主诊医生" },inplace=True)data_df.columnsdata_df.isnull().sum()from sklearn.preprocessing import LabelEncoder# 创建 LabelEncoder 实例
label_encoder = LabelEncoder()# 对非数值型列进行标签编码
data_df['主诊医生'] = label_encoder.fit_transform(data_df['主诊医生'])data_df.head()# 计算是否患病, 人数
counts = data_df["诊断状态"].value_counts()# 计算百分比
sizes = counts / counts.sum() * 100# 绘制环形图
fig, ax = plt.subplots()
wedges, texts, autotexts = ax.pie(sizes, labels=sizes.index, autopct='%1.2ff%%', startangle=90, wedgeprops=dict(width=0.3))plt.title("患病占比(1患病，0没有患病)")plt.show()plt.figure(figsize=(40, 35))
sns.heatmap(data_df.corr(), annot=True, fmt=".2f")
plt.show()data_df['年龄'].min(), data_df['年龄'].max()# 计算每一个年龄段患病人数 
age_bins = range(60, 91)
grouped = data_df.groupby('年龄').agg({'诊断状态': ['sum', 'size']})  # 分组、聚合函数: sum求和，size总大小
grouped.columns = ['患病', '总人数']
grouped['不患病'] = grouped['总人数'] - grouped['患病']  # 计算不患病的人数# 设置绘图风格
sns.set(style="whitegrid")plt.figure(figsize=(12, 5))# 获取x轴标签（即年龄）
x = grouped.index.astype(str)  # 将年龄转换为字符串格式便于显示# 画图
plt.bar(x, grouped["不患病"], 0.35, label="不患病", color='skyblue')
plt.bar(x, grouped["患病"], 0.35, label="患病", color='salmon')# 设置标题
plt.title("患病年龄分布", fontproperties='Microsoft YaHei')
plt.xlabel("年龄", fontproperties='Microsoft YaHei')
plt.ylabel("人数", fontproperties='Microsoft YaHei')# 如果需要对图例也应用相同的字体
plt.legend(prop={'family': 'Microsoft YaHei'})# 展示
plt.tight_layout()
plt.show()

3.特征选择

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import classification_reportdata = data_df.copy()X = data_df.iloc[:, 1:-2]
y = data_df.iloc[:, -2]X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 标准化
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)# 模型创建
tree = DecisionTreeClassifier()
tree.fit(X_train, y_train)
pred = tree.predict(X_test)reporter = classification_report(y_test, pred)
print(reporter)# Set a font that supports CJK characters (e.g., SimHei for Chinese on Windows)
plt.rcParams['font.sans-serif'] = ['SimHei', 'Microsoft YaHei', 'Noto Sans CJK JP']  # Choose appropriate fonts# Disable the "unicode minus" setting to avoid rendering issues
plt.rcParams['axes.unicode_minus'] = False
# 特征展示
feature_importances = tree.feature_importances_
features_rf = pd.DataFrame({'特征': X.columns, '重要度': feature_importances})
features_rf.sort_values(by='重要度', ascending=False, inplace=True)
plt.figure(figsize=(20, 10))
sns.barplot(x='重要度', y='特征', data=features_rf)
plt.xlabel('重要度')
plt.ylabel('特征')
plt.title('随机森林特征图')
plt.show()from sklearn.feature_selection import RFE# 使用 RFE 来选择特征
rfe_selector = RFE(estimator=tree, n_features_to_select=20)  # 选择前20个特征
rfe_selector.fit(X, y)  
X_new = rfe_selector.transform(X)
feature_names = np.array(X.columns) 
selected_feature_names = feature_names[rfe_selector.support_]
print(selected_feature_names)feature_selection = ['年龄', '种族','教育水平','身体质量指数（BMI）', '酒精摄入量', '体育活动时间', '饮食质量评分', '睡眠质量评分', '心血管疾病','收缩压', '舒张压', '胆固醇总量', '低密度脂蛋白胆固醇（LDL）', '高密度脂蛋白胆固醇（HDL）', '甘油三酯','简易精神状态检查（MMSE）得分', '功能评估得分', '记忆抱怨', '行为问题', '日常生活活动（ADL）得分']X = data_df[feature_selection]# 标准化sc = StandardScaler()
X = sc.fit_transform(X)X = torch.tensor(np.array(X), dtype=torch.float32)
y = torch.tensor(np.array(y), dtype=torch.long)# 再次进行特征选择
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)X_train.shape, y_train.shapetest_X = X_test[0].reshape(1, -1) # X_test[0]即我们的输入数据pred = model(test_X.to(device)).argmax(1).item()
print("模型预测结果为：",pred)
print("=="*20)
print("0：未患病")
print("1：已患病")

4.创建模型与编译训练

batch_size = 32train_dl = DataLoader(TensorDataset(X_train, y_train),batch_size=batch_size,shuffle=True
)test_dl = DataLoader(TensorDataset(X_test, y_test),batch_size=batch_size,shuffle=False
)class Rnn_Model(nn.Module):def __init__(self):super().__init__()# 调用rnnself.rnn = nn.RNN(input_size=20, hidden_size=200, num_layers=1, batch_first=True)self.fc1 = nn.Linear(200, 50)self.fc2 = nn.Linear(50, 2)def forward(self, x):x, hidden1 = self.rnn(x)x = self.fc1(x)x = self.fc2(x)return x# 数据不大，cpu即可
device = "cpu"model = Rnn_Model().to(device)
modelmodel(torch.randn(32, 20)).shape

5.编译及训练模型

def train(data, model, loss_fn, opt):size = len(data.dataset)batch_num = len(data)train_loss, train_acc = 0.0, 0.0for X, y in data:X, y = X.to(device), y.to(device)pred = model(X)loss = loss_fn(pred, y)# 反向传播opt.zero_grad()  # 梯度清零loss.backward()  # 求导opt.step()       # 设置梯度train_loss += loss.item()train_acc += (pred.argmax(1) == y).type(torch.float).sum().item()train_loss /= batch_numtrain_acc /= size return train_acc, train_loss def test(data, model, loss_fn):size = len(data.dataset)batch_num = len(data)test_loss, test_acc = 0.0, 0.0 with torch.no_grad():for X, y in data: X, y = X.to(device), y.to(device)pred = model(X)loss = loss_fn(pred, y)test_loss += loss.item()test_acc += (pred.argmax(1) == y).type(torch.float).sum().item()test_loss /= batch_numtest_acc /= sizereturn test_acc, test_loss loss_fn = nn.CrossEntropyLoss()  # 损失函数     
learn_lr = 1e-4            # 超参数
optimizer = torch.optim.Adam(model.parameters(), lr=learn_lr)   # 优化器train_acc = []
train_loss = []
test_acc = []
test_loss = []epoches = 50for i in range(epoches):model.train()epoch_train_acc, epoch_train_loss = train(train_dl, model, loss_fn, optimizer)model.eval()epoch_test_acc, epoch_test_loss = test(test_dl, model, loss_fn)train_acc.append(epoch_train_acc)train_loss.append(epoch_train_loss)test_acc.append(epoch_test_acc)test_loss.append(epoch_test_loss)# 输出template = ('Epoch:{:2d}, Train_acc:{:.1f}%, Train_loss:{:.3f}, Test_acc:{:.1f}%, Test_loss:{:.3f}')print(template.format(i + 1, epoch_train_acc*100, epoch_train_loss, epoch_test_acc*100, epoch_test_loss))print("Done")

6.结果可视化

import matplotlib.pyplot as plt
#隐藏警告
import warnings
warnings.filterwarnings("ignore")               #忽略警告信息
from datetime import datetime
current_time = datetime.now() # 获取当前时间epochs_range = range(epoches)plt.figure(figsize=(12, 3))
plt.subplot(1, 2, 1)plt.plot(epochs_range, train_acc, label='Training Accuracy')
plt.plot(epochs_range, test_acc, label='Test Accuracy')
plt.legend(loc='lower right')
plt.title('Training Accuracy')
plt.xlabel(current_time) # 打卡请带上时间戳，否则代码截图无效plt.subplot(1, 2, 2)
plt.plot(epochs_range, train_loss, label='Training Loss')
plt.plot(epochs_range, test_loss, label='Test Loss')
plt.legend(loc='upper right')
plt.title('Training= Loss')
plt.show()from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay pred = model(X_test.to(device)).argmax(1).cpu().numpy()# 计算混淆矩阵
cm = confusion_matrix(y_test, pred)# 计算
plt.figure(figsize=(6, 5))
sns.heatmap(cm, annot=True, fmt="d", cmap="Blues")
# 标题
plt.title("混淆矩阵")
plt.xlabel("Predicted Label")
plt.ylabel("True Label")plt.tight_layout()  # 自适应
plt.show()

总结：

1. 数据准备与预处理

导入库：主要使用了pandas、numpy、matplotlib、seaborn、sklearn 和 torch 进行数据处理和建模。
读取数据：从data/alzheimers_disease_data.csv加载数据集，并对列名进行了中文化重命名以便于理解。
缺失值检查：通过isnull().sum()检查是否存在缺失值。
标签编码：对“主诊医生”字段使用LabelEncoder进行编码，将其转换为数值型数据。
数据可视化：
- 绘制饼图展示患病比例（1为患病，0为未患病）。
- 使用热力图分析各特征之间的相关性。
- 绘制柱状图展示不同年龄段的患病情况。

2. 特征选择与处理

划分训练集和测试集：使用train_test_split将数据划分为训练集和测试集（8:2）。
标准化处理：使用StandardScaler对数据进行标准化，以提高模型性能。
特征重要性评估：
- 使用决策树(DecisionTreeClassifier)计算特征重要性，并绘制条形图展示最重要的特征。
- 使用递归特征消除(RFE)方法选择前20个关键特征。
最终特征选择：选择了20个最具代表性的特征用于后续建模。

3. 构建RNN模型

定义RNN模型：

class Rnn_Model(nn.Module):def __init__(self):super().__init__()self.rnn = nn.RNN(input_size=20, hidden_size=200, num_layers=1, batch_first=True)self.fc1 = nn.Linear(200, 50)self.fc2 = nn.Linear(50, 2)def forward(self, x):x, hidden1 = self.rnn(x)x = self.fc1(x)x = self.fc2(x)return x

模型结构：

输入层：20维特征
隐藏层：200个隐藏单元
全连接层：输出2类（0：未患病，1：已患病）

数据加载器：使用DataLoader将数据封装成批次，便于训练时使用。

4. 训练与评估模型

损失函数：使用交叉熵损失函数CrossEntropyLoss。
优化器：使用Adam优化器，学习率为1e-4。
训练过程：
- 定义了train()和test()函数，分别用于训练和验证模型。
- 在每一轮训练后，记录训练和测试的准确率与损失。
- 总共训练50个epoch。
结果输出：
- 输出每个epoch的训练和测试准确率、损失值。

5. 可视化与评估

准确率和损失曲线：
- 使用matplotlib绘制了训练和测试的准确率和损失变化趋势。
混淆矩阵：
- 使用confusion_matrix计算模型在测试集上的预测结果与真实标签的对比。
- 绘制热力图展示混淆矩阵，直观评估模型表现。

6. 结果分析

模型预测示例：

pred = model(test_X.to(device)).argmax(1).item()
print("模型预测结果为：",pred)
print("=="*20)
print("0：未患病")
print("1：已患病")

展示了单个样本的预测结果。

查看全文

http://www.xdnf.cn/news/532531.html

Profinet转Modbus TCP协议转换技术，打通能耗监控‘最后一公里’

3-STM32F103-GPIO学习

1688正式出海，1688跨境寻源通接口接入，守卫的是国内工厂资源

# YOLOv4：目标检测的全新突破

深入Python闭包内存泄漏：从原理到实战修复指南

「SolarClock」开发纪实：一次与 CodeBuddy 的中式极简协作体验

1.1 Epson机器人常用指令1-Print函数、RobotInfo$

如何轻松删除电脑上的文件（无法恢复文件）

【C语言】易错题经典题型

java笔记07

Serverless 的未来与进阶：持续学习之路

STM32实战指南——DHT11温湿度传感器驱动开发与避坑指南

conda 的常用命令

VTK|箱体切割器

【python】windows修改 pip 默认安装路径

如何用 OceanBase 的 LOAD DATA 旁路导入进行大表迁移

git merge和git rebase的区别

GPT-4.1特点？如何使用GPT-4.1模型,GPT-4.1编码和图像理解能力实例展示

宏汇编以及浮点程序设计实验

解决leetcode第3539题.魔法序列的数组乘积之和

NW860NW894美光闪存颗粒NX770NX789

学习黑客PowerShell的历史、架构与工作原理深度解析

什么是RDMA？

苍穹外卖 - Day03

Solana 一键发币 + 自动建池：技术逻辑与挑战解析

《Head First 设计模式》第二章 - 笔记

手动制做一个Transformer

C++初阶-vector的使用

python-leetcode 67.寻找两个正序数组中的中位数

如何在 Windows 11 或 10 上安装 Fliqlo 时钟屏保

1.检查GPU

2.查看数据

3.特征选择

4.创建模型与编译训练

​​

5.编译及训练模型

​​ ​

6.结果可视化

​​​​​​

​

总结：

1. 数据准备与预处理

2. 特征选择与处理

3. 构建RNN模型

4. 训练与评估模型

5. 可视化与评估

6. 结果分析

相关文章：