当前位置: 首页 > java >正文

论文略读:Position: AI Evaluation Should Learn from How We Test Humans

ICML 2025

  • 目前AI的benchmark,大体上都准备一个庞大全面的测试集,模型答题后按准确率等各类指标打分
    • 但这种评估范式实际应用中存在如下问题:
      • 成本:尤其针对大模型,评估涉及大量的计算成本、人工成本、时间成本
      • 可靠性:大量题目存在重复/冗余、题目质量良莠不齐
      • 安全性:很多测试题在训练阶段被模型“见过”/“记住”了
      • 可解释性:只观测到“做对多少题”,但不知道“能力强在哪儿”“能力有多强”
  • ——>论文受到心理测量学(Psychometrics)自适应测试的启发,认为:
    • 每道题的重要性和信息价值都不同,可估计出每个题目的难度、区分度、猜测概率等统计特征
      • 难度:
        • 下图的两个问题单独有差异,简单的题目中有明显的情感偏向词汇
      • 可靠性(区分度)
        • Benchmark 中可能出现低质量甚至是标注错误的题目
      • 猜测系数
        • 部分题目易被“猜对”,无法真实考察能力
        • 下图是MedQA的一道题,即便模型缺乏医学知识,也可能仅凭常识猜对,这些题目的高猜测系数削弱了其评估价值
    • 系统根据考生表现动态分发题目,更精准评估能力
  • 当然还有一个问题是数据污染问题:测试数据很可能被模型在训练阶段“看”过
    • 之前针对 LLM 的污染检测方法
      • 高难题答对,低难题却答错
      • 模型频繁在“不可能答对的题”上答对
    • 此时自适应测试的天然优势出现了
      • 每个模型做的题不同,完整的测试集没有完全暴露,进一步降低了数据污染风险
http://www.xdnf.cn/news/12840.html

相关文章:

  • PLC入门【2】PLC的接线
  • 系统模块与功能设计框架
  • 对F1分数的基本认识
  • 【AI论文】VS-Bench:评估多智能体环境中的视觉语言模型(VLM)在策略推理与决策制定方面的能力
  • 个人感悟-构建1000人商业帝国的战略计划
  • vulnyx lower2 writeup
  • 【优选算法】分治
  • Java线程池
  • nginx配置文件
  • leetcode238-除自身以外数组的乘积
  • 【JVM面试篇】高频八股汇总——Java内存区域
  • 华为OD机考 - 水仙花数 Ⅰ(2025B卷 100分)
  • 8. 二叉树(随想录)
  • 本地缓存在Java中的实现方式
  • “图像说话,文本有图”——用Python玩转跨模态数据关联分析
  • 【2025CVPR】模型融合新范式:PLeaS算法详解(基于排列与最小二乘的模型合并技术)
  • 飞云控盘指标-副图指标-买点一持仓操作技术图文解说
  • 初级程序员入门指南
  • 跟进一下目前最新的大数据技术
  • 设备驱动与文件系统:06 目录与文件
  • 骨盆-x光参数
  • python生成器
  • SWAN(Scade One) 语言原理介绍
  • Linux中《进程控制》详细介绍
  • RootSIFT的目标定位,opencvsharp。
  • DOM(文档对象模型)深度解析
  • 开源项目实战学习之YOLO11:12.6 ultralytics-models-tiny_encoder.py
  • 【深度学习-Day 25】告别过拟合:深入解析 L1 与 L2 正则化(权重衰减)的原理与实战
  • 标准代码项目开发流程学习指南
  • CMS内容管理系统的设计与实现:架构设计