当前位置：首页 > java >正文

论文略读：Position: AI Evaluation Should Learn from How We Test Humans

java 2025/6/23 19:02:37

ICML 2025

目前AI的benchmark，大体上都准备一个庞大全面的测试集，模型答题后按准确率等各类指标打分
- 但这种评估范式实际应用中存在如下问题：
  - 成本：尤其针对大模型，评估涉及大量的计算成本、人工成本、时间成本
  - 可靠性：大量题目存在重复/冗余、题目质量良莠不齐
  - 安全性：很多测试题在训练阶段被模型“见过”/“记住”了
  - 可解释性：只观测到“做对多少题”，但不知道“能力强在哪儿”“能力有多强”
——>论文受到心理测量学（Psychometrics）自适应测试的启发，认为：
- 每道题的重要性和信息价值都不同，可估计出每个题目的难度、区分度、猜测概率等统计特征
  - 难度：
    - 下图的两个问题单独有差异，简单的题目中有明显的情感偏向词汇
  - 可靠性（区分度）
    - Benchmark 中可能出现低质量甚至是标注错误的题目
  - 猜测系数
    - 部分题目易被“猜对”，无法真实考察能力
    - 下图是MedQA的一道题，即便模型缺乏医学知识，也可能仅凭常识猜对，这些题目的高猜测系数削弱了其评估价值
- 系统根据考生表现动态分发题目，更精准评估能力
当然还有一个问题是数据污染问题：测试数据很可能被模型在训练阶段“看”过
- 之前针对 LLM 的污染检测方法
  - 高难题答对，低难题却答错
  - 模型频繁在“不可能答对的题”上答对
- 此时自适应测试的天然优势出现了
  - 每个模型做的题不同，完整的测试集没有完全暴露，进一步降低了数据污染风险