当前位置：首页 > ds >正文

人工智能基础知识笔记九：模型评估的指标

ds 2025/7/3 14:20:05

1、简介

在评估机器学习模型的性能时，根据任务的不同（分类、回归等），我们可以使用不同的评价指标。本文主要是介绍一些常见的评估指标及其优缺点。

2、回归模型指标

2.1. 平均绝对误差（MAE, Mean Absolute Error）

定义：预测值与真实值的绝对误差的平均值。
计算公式：

变量：
- n：样本数量
- yi：真实值
- y^i：预测值

优点：
- 直观易解释，与数据单位一致，因为它直接给出了预测值与真实值之间的平均绝对差异。
- 对异常值不敏感（鲁棒性强）。
缺点：
- 无法反映误差的方向（高估或低估）。
- 不适用于需要强调大误差的场景。

2.2. 均方误差（MSE, Mean Squared Error）

定义：预测值与真实值的平方误差的平均值。
计算公式：
优点：
- 对大误差惩罚更重，适合重视显著错误的场景。
- MSE放大了较大误差的影响，有助于识别出异常值对模型的影响。
缺点：
- 单位与数据不一致（平方单位），难以直观理解。
- 对异常值敏感。

2.3. 均方根误差（RMSE, Root Mean Squared Error）

定义：MSE 的平方根，恢复单位一致性。
计算公式：
优点：兼具 MSE 对大误差敏感的特点，且单位与数据一致。
缺点：仍对异常值敏感。

2.4. R²（决定系数）

定义：模型解释变量变化的百分比，取值区间 [0, 1]。
计算公式：
变量：
- SSE：残差平方和（预测误差平方和）
- SST：总平方和（真实值的方差）
- yˉ：真实值的均值
优点：
- 标准化指标，便于比较不同模型。
缺点：
- 随模型复杂度增加可能虚高（过拟合时仍表现良好）。
- 无法直接反映预测误差大小。

2.5. 调整R²（Adjusted R²）

定义：考虑自变量数量的调整版 R²。
计算公式：
优点：惩罚无关变量，避免过拟合。
缺点：仍无法完全解决 R² 的局限性。

3、回归模型指标

3.1. 准确率（Accuracy）

定义：正确预测样本占总样本的比例。
计算公式：

变量（混淆矩阵）：
- TP（True Positive）：正确预测的正类
- TN（True Negative）：正确预测的负类
- FP（False Positive）：负类误判为正类
- FN（False Negative）：正类误判为负类
优点：简单直观，适合于类别分布均衡的数据集。
缺点：
- 类别不平衡时误导性高（如 99% 负类时全预测负类准确率达 99%）。

3.2. 混淆矩阵衍生指标

精确率（Precision）：预测为正的样本中实际为正的比例。
- 计算公式：
- 优点：关注减少假阳性（如垃圾邮件检测）。
- 缺点：忽略假阴性。
召回率（Recall/Sensitivity）：实际为正的样本中被正确预测的比例。
- 计算公式：
- 优点：关注减少假阴性（如疾病诊断）。
- 缺点：忽略假阳性。
F1分数：精确率和召回率的调和平均。
- 计算公式：
- 优点：平衡二者，适合类别不平衡数据。
- 缺点：假设精确率和召回率同等重要。

3.3. ROC-AUC

定义：ROC 曲线下面积，评估模型在不同阈值下的性能。
计算公式：横轴为假正率（FPR），纵轴为真正率（TPR）
优点：
- 与类别分布无关，适合不平衡数据。
- 综合反映模型整体排序能力。
- 提供了一个全面的视角来评估分类器的整体性能，不受阈值选择的影响。
缺点：
- 对概率校准不敏感。
- 高 AUC 不保证高精确率或召回率。
- 提供了一个全面的视角来评估分类器的整体性能，不受阈值选择的影响。

3.4. PR-AUC（精确率-召回率曲线下面积）

优点：在不平衡数据中比 ROC-AUC 更敏感。
缺点：解释复杂度较高。

3.5. 对数损失（Log Loss）

定义：基于预测概率的损失函数。
计算公式：
变量：
- p^i：预测样本为正类的概率
- yi∈{0,1}：真实标签
优点：对概率校准敏感，适合概率模型。
缺点：对错误预测惩罚较重，可能导致数值不稳定。

3.6. 马修斯相关系数（MCC）

计算公式：
优点：综合考虑所有混淆矩阵值，适用于不平衡数据。
缺点：计算复杂，解释性较差。

3.7.Cohen's Kappa

优点: 考虑到了随机猜测的可能性，提供了比准确率更稳健的评估。
缺点: 计算复杂度较高，不易于快速解读。

4、其他任务指标

4.1. 聚类

轮廓系数（Silhouette Coefficient）：衡量聚类紧密度和分离度。
计算公式：
- 优点：无需真实标签。
- 缺点：计算复杂度高，不适用于大规模数据。

4.2. 自然语言处理（NLP）

BLEU/ROUGE：评估生成文本与参考文本的相似度。
计算公式：
变量：
- pk：n-gram（如1-gram到4-gram）的精确率
- BP：简洁惩罚因子（避免短句得分过高）
- 优点：自动化评估生成质量。
- 缺点：忽略语义和逻辑一致性。

4.3. 推荐系统

NDCG（归一化折损累积增益）：衡量排序质量。
计算公式：
- 优点：考虑位置权重和相关性分级。
- 缺点：计算复杂。

5、选择指标的建议

任务类型：优先选择与任务匹配的指标（如回归用 RMSE，分类用 F1）。
数据分布：类别不平衡时避免准确率，选择 F1、AUC 或 MCC。
业务需求：根据场景调整（如医疗诊断重视召回率，反欺诈重视精确率）。

通过结合多个指标，可以更全面地评估模型性能。

http://www.xdnf.cn/news/5951.html

相关文章：

OpenAI官方指南，详细解释了何时使用哪种AI模型

amd架构主机构建arm架构kkfileview

vue3学习——侦听器

从零开始掌握FreeRTOS——目录

Java后端快速生成验证码

Python查询ES错误ApiError(406, ‘Content-Type ...is not supported

vr视频制作攻略（VR视频制作基础知识）

漏桶算法的实际应用案例：数据库批量写入流量控制

基于智能家居项目解析DHT11温湿度传感器

hadoop中创建MySQL新数据库数据表

数据库数据清洗、预处理与质量监控、数据质量的核心概念

《Effective Python》第1章 Pythonic 思维总结——编写优雅、高效的 Python 代码

分布式任务调度XXL-Job

项目：博客系统——基于SSM框架Mybatis-plus

C++学习之路，从0到精通的征途：继承

hadoop3.x单机部署

【计算机网络第8版】谢希仁编著第四章网络层题型总结3 SDN OpenFlow

工程师必读！ 3 个最常被忽略的 TDR 测试关键细节与原理

ubuntu20.04安装qtcreator并打开ros工程

CD3MN 双相钢 2205 材质保温 V 型球阀：恒温工况下复杂介质控制的高性能之选-耀圣

72.编辑距离

11. CSS从基础样式到盒模型与形状绘制

KV cache 缓存与量化：加速大型语言模型推理的关键技术

AUTOSAR图解==＞AUTOSAR_TPS_FeatureModelExchangeFormat

榕壹云搭子系统技术解析：基于Spring Boot+MySQL+UniApp的同城社交平台开发实践

国内USB IP商业解决方案新选择：硬件USB Server

鸿蒙Next开发获取APP缓存大小和清除缓存

图片的require问题

轻量级高性能推理引擎MNN 学习笔记 02.MNN主要API