当前位置：首页 > news >正文

【机器学习深度学习】客观评估训练程度

news 2025/8/16 7:44:43

前言

一、什么是客观评估？

二、客观评估的两大核心方法

1. 判别式评测（Discriminative Evaluation）

2. 生成式评测（Generative Evaluation）

三、为什么客观评估成本更高？

1.训练目标收紧

2.训练时间延长

3.评测设计复杂化

四、如何科学地评估训练程度？

1. 固定输入，控制变量

2. 数据集权威且多样

3. 多指标交叉验证

4. 自动化 + 人工抽检

五、一个实际案例：医学问答评估

六、结语

前言

在大语言模型（LLM）领域，“训练程度”像是模型的“学业水平”，而客观评估则是给它发成绩单的方式。不同于带有主观色彩的“印象打分”，客观评估依托明确的标准答案与量化指标，对模型能力进行可复现、可比较的测量。

本文将结合实际经验，拆解客观评估的核心方法、落地挑战与优化策略，帮助你理解——我们如何判断一个模型是否真的“学到位了”。

围绕主题：客观评估落地场景中，模型一般需要训练到什么什么程度合适？

一、什么是客观评估？

在模型的应用场景中，有些任务有着唯一或高度确定的正确答案，比如：

医疗诊断的临床指标解读

法律条文的适用判断

数学公式的计算结果

编程任务的单元测试输出

这些任务的结果不依赖个人感受，而依赖与权威答案的一致性。
客观评估的目标就是——让模型在这些任务上的表现，用数字说话。

二、客观评估的两大核心方法

OpenCompass 等评测体系中，客观评估常用两种方式：

1. 判别式评测（Discriminative Evaluation）

原理：将问题与候选答案组合，计算每种组合的困惑度（Perplexity），困惑度越低，模型越“确信”这个答案正确。
优点：
- 对封闭式问题（选择题、判断题）效果稳定
- 可以比较不同选项的置信度差异
例子：

问题：2 + 2 = ?

答案1：4 → 困惑度 0.05

答案2：5 → 困惑度 0.30
模型选择答案1。

2. 生成式评测（Generative Evaluation）

原理：只给出问题，让模型直接生成答案，再与标准答案对比。
适用场景：
- 翻译、摘要
- 代码生成
- 开放式问答
挑战：
- 生成结果可能存在表达多样性（正确但用词不同）
- 需要额外的后处理（正则化、格式化、语义匹配）
常用指标：

▲BLEU（机器翻译评估分数）

▲ROUGE（摘要/生成文本召回率指标）：通常关心 ROUGE-1（字/词级匹配）、ROUGE-2（2-gram匹配）、ROUGE-L（最长公共子序列）；

▲BERTScore（基于语义相似度的文本生成评估）：返回 P（精确率）、R（召回率）、F1（综合分数）；

▲Exact Match（完全匹配率）：表示预测与参考在字符串上完全一致的比例；

▲pass@k（代码生成任务的成功率估计）：这个指标常用于 代码生成 评估，表示“取 k 个候选代码，至少有一个正确的概率”。