当前位置：首页 > java >正文

深度学习的相关术语介绍（杂乱版-想到啥介绍啥）

java 2025/7/1 22:36:53

损失函数（Loss Function）

交叉熵损失（Cross-Entropy Loss）：分类任务常用。
均方误差（MSE, Mean Squared Error）：回归任务常用，如预测药物分子结合能。
二元交叉熵（Binary Cross-Entropy）：二分类任务（如药物毒性预测）。
对比损失（Contrastive Loss）：度量学习（如分子相似性比较）

数据预处理与表示

分子表示方法
- SMILES：字符串表示（如CCO代表乙醇）。
- SELFIES：更鲁棒的分子字符串编码方式。
- 分子图（Molecular Graph）：节点（原子）、边（化学键）的图结构。
- 3D分子构象：通过RDKit或分子动力学模拟生成。
特征工程
- 分子描述符（Descriptors）：如分子量、LogP、极性表面积。
- 分子指纹（Fingerprints）：二进制向量表示分子特征，MACCS、ECFP4（Extended Connectivity Fingerprint）

正则化技术

过拟合：过拟合是指模型在训练数据上表现过于优秀，但在未见过的测试数据上表现显著下降的现象。模型过度记忆了训练数据中的噪声和细节，而非学习到泛化规律。
欠拟合：欠拟合是指模型在训练数据和测试数据上均表现不佳，无法捕捉数据中的基本模式。

1.L1/L2正则化

原理：在损失函数中增加权重的惩罚项，限制模型复杂度，防止过拟合。
- L1正则化：添加权重绝对值之和（λ∑∣w∣λ∑∣w∣），使部分权重趋近于0（特征选择）。
- L2正则化：添加权重平方和（λ∑w2λ∑w2），使权重均匀变小。
例子：
- 药物预测：假设模型用100个分子描述符预测活性，L1正则化可能筛选出其中10个关键描述符（如LogP、极性表面积），忽略无关特征。
- 通俗比喻：L1像严格导师，逼你只学重点；L2像温和导师，让你所有知识都学但别钻牛角尖。

2.Dropout

原理：训练时随机屏蔽部分神经元，强迫网络不依赖单一通路，增强泛化能力。
例子：
- 药物预测：小数据集训练毒性分类模型时，Dropout可防止模型死记硬背某些分子结构，提高对未知分子的泛化能力。
- 通俗比喻：考试前复习时，随机跳过某些知识点，逼自己全面掌握。

优化算法

1.梯度下降（Gradient Descent）

原理：沿损失函数梯度方向更新参数，寻找最小值。
- 批量梯度下降：用全部数据计算梯度（稳定但慢）。
- 随机梯度下降（SGD）：用单个样本计算梯度（快但不稳定）。
- 小批量梯度下降：折中方案（常用）。
例子：
- 药物预测：调整模型参数，使预测的pIC50（药物活性）更接近实验值。
- 通俗比喻：蒙眼下山，每走一步用脚试探坡度最陡的方向。

2.Adam

原理：结合动量（惯性）和自适应学习率（每个参数单独调整步长）。
例子：
- 药物预测：训练复杂图神经网络时，Adam能快速收敛，避免手动调整学习率。
- 通俗比喻：下山时不仅看坡度，还考虑之前几步的动量，胖的人惯性大，瘦的人灵活调整方向。

3.RMSProp

原理：对梯度平方进行指数移动平均，缓解非平稳目标（如稀疏梯度）的影响。
例子：
- 药物预测：处理基因序列数据（某些区域梯度变化剧烈），RMSProp比SGD更稳定。
- 通俗比喻：下山时遇到乱石坡，穿防滑鞋（调整步幅）比普通鞋更稳。

训练流程与数据处理

1.前向传播 & 反向传播

前向传播：数据从输入层到输出层的计算过程。
反向传播：根据损失函数计算梯度，从输出层反向传播到输入层。
例子：
- 药物预测：输入分子指纹→模型预测活性（前向）；若预测错误，反向调整权重（反向）。
- 通俗比喻：前向像学生答题，反向像老师批改后指出错误并让学生订正。

2.特征工程

原理：人工设计或选择对任务有用的特征。
例子：
- 药物预测：从分子结构中提取描述符（如氢键供体数、分子量）。
- 通俗对比：深度学习模型可以自动学习特征，但小数据时仍需人工特征（如用RDKit计算分子性质）。

3.数据增强

原理：通过变换生成新样本，增加数据多样性。
例子：
- 药物预测：对分子3D结构进行旋转、镜像生成新构象。
- 通俗比喻：拍照时换角度和光线，让模型学会识别不同姿态的同一个人。

4.标签平滑（Label Smoothing）

原理：将硬标签（如0或1）替换为软标签（如0.1或0.9），防止模型过度自信。
例子：
- 药物预测：毒性标签可能存在实验误差，将标签从[1, 0]改为[0.9, 0.1]。
- 通俗比喻：老师批卷时，不确定答案是否全错，给部分分数而非0分。

超参数调优

1.学习率（Learning Rate）

原理：控制参数更新步长。
例子：
- 药物预测：学习率太大会跳过最优解（如预测IC50时误差震荡），太小则训练过慢。
- 通俗比喻：下山时步幅太大可能跨过山谷，太小则半天走不到。

2.网格搜索 vs 随机搜索 vs 贝叶斯优化

网格搜索：暴力遍历所有超参数组合（如学习率[0.1, 0.01]，隐藏层[64, 128]）。
随机搜索：随机抽样超参数，更高效。
贝叶斯优化：基于已有结果动态调整搜索方向。
例子：
- 药物预测：优化GNN的超参数（层数、Dropout率），贝叶斯优化比网格搜索快10倍。
- 通俗比喻：网格搜索像地毯式搜山，随机搜索像扔飞镖，贝叶斯优化像用探测器找宝藏。

梯度问题与归一化

1.梯度消失/爆炸

原理：深层网络中梯度连乘后趋近于0（消失）或无穷大（爆炸）。
例子：
- 药物预测：训练10层GNN时，梯度消失导致底层参数无法更新。
- 解决：用残差连接（ResNet）、LSTM、梯度裁剪（限制梯度的大小，防止参数更新步长过大，同时保持梯度方向不变）。

2.残差连接（Residual Connection）

原理：H(x)=F(x)+x，允许梯度直接跳过某些层。
例子：
- 药物预测：在深层GNN中，残差连接防止梯度消失，提升模型性能。
- 通俗比喻：快递员送货时走主路（残差路径），堵车时可绕小路（非线性变换）。

归一化与标准化

1.归一化的作用

调整数据分布，使其更符合模型学习的假设（如线性可分性、梯度稳定性）。

（1）. 加速模型训练

原因：输入数据或中间层输出的分布差异过大会导致梯度不稳定（如某些特征值远大于其他特征）。
示例：
- 药物分子特征：若分子量范围是[0, 1000]，而氢键数范围是[0, 10]，未归一化时模型会过度关注分子量。
- 归一化后：所有特征被缩放到相近范围（如[-1, 1]），梯度更新更均衡。

（2）. 缓解梯度问题

梯度消失/爆炸：深层网络中，输入分布剧烈变化(变化幅度大)会导致梯度异常（如激活函数饱和）。
示例：
- 使用Sigmoid激活函数时，未归一化的输入可能集中在函数饱和区（梯度趋近于0）。
- 归一化后：输入集中在激活函数敏感区（如Sigmoid的线性区），梯度正常传播。

（3）. 减少对参数初始化的依赖

未归一化时：模型对初始权重的选择极其敏感，可能导致训练失败。
归一化后：无论初始权重如何，输入分布会被调整到稳定范围内，模型更容易收敛。

2.归一化与标准化的区别

（1）. 标准化（Standardization）

定义：将数据转换为均值为0、标准差为1的分布，公式：
特点：
- 适用于数据分布近似高斯（正态分布）的场景。
- 全局性调整：不改变数据范围，保留异常值信息。
应用场景：
- 数据预处理：在输入模型前标准化原始数据（如药物分子描述符）。
- 示例：将IC50值标准化为均值为0的分布。

（2）. 归一化（Normalization）

定义：将数据缩放到特定范围（如[0, 1]或[-1, 1]），常用方法：
特点：
- 适用于数据分布不明确或需要强制限定范围的场景。
- 局部性调整：可能丢失异常值信息（如最大值远大于其他值）。
应用场景：
- 图像像素值：缩放到[0, 1]或者[-1,1]范围。
- 药物分子特征：将分子量归一化到[0, 1]方便模型处理。

对比点	归一化	标准化
概念	将数值规约到(0,1)或(-1,1)区间	将对应数据的分布规约在均值为0，标准差为1的分布上
侧重点	数值的归一，丢失数据的分布信息，对数据之间的距离未保留，但保留了权重	数据分布的归一，保留样本之间的距离，但丢失权值
缺点	1. 丢失样本间的距离信息； 2. 鲁棒性差（新样本易影响最值）	1. 丢失样本间的权重信息
适合场景	1. 小数据/固定数据； 2. 不涉及距离度量、数据非正态分布； 3. 多指标综合评价	1. 需距离度量的分类/聚类； 2. 鲁棒性要求高或数据范围未知
缩放方式	先平移（减最小值），后缩放（除以最值差）	先平移（减均值），后缩放（除以标准差）
目的	消除量纲，便于多指标综合评价	便于梯度下降和激活函数处理（数据以0为中心分布，匹配Sigmoid/Tanh等函数）