当前位置: 首页 > news >正文

Pass@1、EM、LC-winrate/winrate、CSL—— 大模型评测指标

大模型常用评测指标,常见的有Pass@1、EM、LC-winrate/winrate、CSL等,以下是关于这几个指标的简要介绍

1. Pass@1

定义:

  • 在代码生成等任务中,Pass@1 表示模型在第一次尝试时就能正确生成目标答案的比例。
  • 通常用于衡量代码自动补全、编程题解答等场景。

举例:

  • 如果有100道编程题,模型第一次输出就正确解决了80道,则 Pass@1 = 80%。

2. EM(Exact Match)

定义:

  • 精确匹配率。指模型输出与标准答案完全一致的样本比例。
  • 常用于问答、文本生成等需要严格比对结果的任务。

举例:

  • 给定10个问题,有7个回答和参考答案一字不差,则 EM = 70%。

3. LC-winrate(Leaderboard Comparison Win Rate)

定义:

  • 一种基于排行榜或标杆系统的人类偏好胜率指标,用于比较两个或多个大语言模型在同一组测试集上的表现优劣。
  • 测试者会判断哪一个模型给出的回答更好,“winrate”即为被认为更好的概率/百分比。

区别说明:

  • “LC”通常指某些公开榜单如“LeaderBoard”的缩写,但具体含义可能随不同社区而异,一般可理解为“大规模人类评价下获胜概率”。

4. winrate

定义:

  • 胜率。通常在人类评价或者A/B测试中使用,即让人工评审员同时看到两个(或多个)模型对同一道题目的回答,然后选择哪个更好,统计每个模型被选中的频次占总次数的比例。

应用场景:

  • 用于主观性较强的问题,如开放式问答、多轮对话、创意写作等领域,比自动化分数更加贴近真实用户体验。

5. CSL(Chinese Super-Large Language Model Evaluation Benchmark)

定义:

  • 中文超大规模语言模型评测基准,是专门针对中文语境下的大型语言模型设计的一套综合性测试体系。

内容涵盖:

  • 包括知识问答、推理能力、数学运算、多轮对话、阅读理解等多方面子任务,通过这些子任务来全面考察中文大语言模型能力水平。

总结表格
指标全称/含义应用场景
Pass@1首次通过率编码/代码生成
EM精确匹配问答/信息抽取
LC-winrate/winrate人工胜率主观质量比较
CSL中文大型评测基准综合能力,多领域
http://www.xdnf.cn/news/383581.html

相关文章:

  • Linux时间同步服务
  • Java多线程(超详细版!!)
  • 智能指针:C++内存管理的现代解决方案
  • 专业级软件卸载工具:免费使用,彻底卸载无残留!
  • 【CF】Day56——Codeforces Round 940 (Div. 2) and CodeCraft-23 BCD
  • 警备,TRO风向预警,In-N-Out Burgers维权风暴来袭
  • 25.K个一组翻转链表
  • 2025年PMP 学习七 -第5章 项目范围管理 (5.4,5.5,5.6 )
  • 多线程获取VI模块的YUV数据
  • 21、DeepSeekMath论文笔记(GRPO)
  • 十七、统一建模语言 UML
  • Win11安装APK方法详解
  • Trex -用 Python生成特定的流量模式
  • C++:this指针
  • CMake 入门实践
  • 牛客练习赛138
  • 8.5 表格进阶
  • (四)毛子整洁架构(Presentation层/Authentiacation)
  • 批量修改json文件中的标签
  • 【MCAL】TC397+EB-tresos之I2c配置实战(同步、异步)
  • 2025年客运从业资格证备考单选练习题
  • Wallcraft 3.53.0 | 提供高质量动态4D壁纸,解锁高级版,无广告干扰
  • 《Python星球日记》 第50天:深度学习概述与环境搭建
  • 数据治理框架在企业中的落地:从理念到实践
  • OSPF案例
  • 完整进行一次共线性分析
  • Java代理
  • Android开发-图像显示
  • 如何通过合法数据变现实现收入增长
  • LVGL对象的盒子模型和样式