1. 训练集预测结果对比图
- 表征含义:
展示模型在训练集上的预测值(红色曲线)与真实值(灰色曲线)的对比。通过曲线重合度可直观判断模型的拟合效果。标题中显示的RMSE(均方根误差)量化了预测值与真实值的平均偏差。 - 用途:
评估模型在训练集上的拟合能力和是否存在过拟合/欠拟合。
2. 训练集相对误差图
- 表征含义:
以条形图形式展示每个训练样本的相对误差((预测值-真实值)/真实值)。正负误差方向反映预测值高估或低估真实值。 - 用途:
识别训练集中误差较大的样本,分析误差分布是否均匀。
3. 测试集预测结果对比图
- 表征含义:
类似训练集对比图,但针对测试集数据(蓝色预测值 vs. 黑色真实值)。标题中的RMSE反映模型在测试集上的泛化能力。 - 用途:
验证模型在未见数据上的预测效果,评估泛化性能。
4. 测试集相对误差图
- 表征含义:
条形图展示测试集中每个样本的相对误差,反映模型在测试集上的误差分布。 - 用途:
分析模型在测试集上的稳定性,检查是否存在系统性偏差。
5. 训练集拟合效果图
- 表征含义:
以散点图形式展示训练集的真实值(x轴)与预测值(y轴)的分布,叠加红色线性拟合线。R²(决定系数)和RMSE显示在标题中。 - 用途:
评估预测值与真实值的线性相关性。理想情况下,散点应沿对角线分布,R²越接近1说明拟合越好。
6. 测试集拟合效果图
- 表征含义:
类似训练集拟合效果图,但针对测试集数据。R²和RMSE反映模型在测试集上的线性相关性和误差。 - 用途:
验证模型在测试集上的预测一致性,检查是否存在过拟合。
7. SHAP摘要图
- 表征含义:
展示每个特征对模型预测的贡献方向和大小。每个点代表一个样本,颜色表示特征值的大小(原始尺度),水平位置表示SHAP值(对预测的正/负影响)。 - 用途:
解释特征重要性及影响方向,识别关键特征。
8. SHAP特征重要性条形图
- 表征含义:
条形图按平均绝对SHAP值降序排列,显示各特征对预测结果的影响程度。 - 用途:
量化特征重要性,辅助特征选择或模型解释。
9. 特征依赖图
- 表征含义:
展示单个特征值与SHAP值的关系。横轴为特征值,纵轴为对应的SHAP值,反映该特征如何影响预测。 - 用途:
揭示特征与预测结果之间的非线性关系,例如阈值效应或单调性。
总结
- 性能评估图(对比图、误差图、拟合图)用于量化模型在训练集和测试集上的准确性和稳定性。
- SHAP分析图(摘要图、重要性图、依赖图)用于解释模型决策逻辑,增强可解释性,辅助特征工程优化。
- 若SHAP相关函数未定义,需确保自定义函数或工具箱已正确加载。