当前位置: 首页 > news >正文

VLM模型评估

使用ms-swift的EvalScope进行评估,优点:1.和ms-swift同一套框架,使用ms-swif训练的话就可以很方便使用EvalScope进行评估,而且还支持训练过程中进行评估。2.EvalScope还封装了OpenCompass和VLMEvalKit。可以通过参数配置使用哪个框架。
问题:使用EvalScope的VLMEvalKit和之前只用VLMEvalKit有什么区别?
在这里插入图片描述

一、开源框架
EvalScope 中文模型评测、多模态任务 中文优先 ✔️
OpenAI/evals 英文文本任务、社区贡献任务库 英文 ❌
OpenCompass 多模态大模型综合能力评测 中英混合 ✔️
OpenAI/evals 文本模型(如 GPT) 文本生成、推理、问答 轻量灵活,社区任务库丰富
OpenCompass 多模态大模型 跨语言、跨模态综合评测 全流程支持,分布式计算,覆盖广泛
VLMEvalKit 视觉语言模型 图文问答、描述生成、对齐 专精 VLM,开箱即用,预置数据集

二、VLMEvalKit:https://github.com/open-compass/VLMEvalKit

  • 默认只支持官网的模型和数据集,也可以测试自己本地模型和本地数据集,但是需要修改代码。

    https://github.com/open-compass/VLMEvalKit/issues/914
    https://github.com/open-compass/VLMEvalKit/issues/856
    疑问1:直接使用VLMEvalKit和在EvalScope使用VLMEvalKit的区别在哪?

三、使用swift的EvalScope进行评估:

  • SWIFT的eval能力使用了魔搭社区评测框架EvalScope,并进行了高级封装以支持各类模型的评测需求。SWIFT支持在训练过程中使用EvalScope对当前的模型进行评测,以便及时了解模型的训练效果。

  • EvalScope支持的数据集都是纯语言的,不支持caption评估。封装了OpenCompass和VLMEvalKit。您也可以使用本框架支持的其他工具进行评测,如OpenCompass进行语言模型评测;或使用VLMEvalKit进行多模态模型评测。

  • 详细介绍:https://evalscope.readthedocs.io/zh-cn/latest/get_started/supported_dataset.html#,介绍了EvalScope、OpenCompass和VLMEvalKit支持的数据集。

  • https://evalscope.readthedocs.io/en/latest/user_guides/backend/vlmevalkit_backend.html:介绍了使用EvalScope框架进行VLMEvalKit工具的测评。

  • 默认只支持modelscope官网的模型和数据集,也可以测试自己本地模型和本地数据集,但是需要修改代码。

  • EvalScope 与ms-swift训练框架无缝集成,支持一键评估,为模型训练和评估提供全面支持。如果使用ms-swift训练,那么使用EvalScope评估会很方便。

    CUDA_VISIBLE_DEVICES=0 swift eval \
    --model Qwen/Qwen2.5-7B-Instruct \
    --infer_backend lmdeploy \
    --eval_backend OpenCompass \
    --eval_dataset ARC_c
    

    这里的eval_backend都支持哪些:

http://www.xdnf.cn/news/119287.html

相关文章:

  • 扣子空间出版的扣子空间使用手册和介绍
  • 数据库+Docker+SSH三合一!深度评测HexHub的全栈开发体验
  • R语言中的常用内置函数
  • Spring Boot常用注解详解:实例与核心概念
  • 各种各样的bug合集
  • HTML给图片居中
  • FreeRTOS【3】任务调度算法
  • Qt —— 在Linux下试用QWebEngingView出现的Js错误问题解决(附上四种解决办法)
  • React 与 Vue:两大前端框架的深度对比
  • 4月份最新---Meta发明了一种很新的Transformer
  • 【AI】基于OllamaSharp与.NET Core API的高效LLM查询实现
  • Langchain_Agent+数据库
  • 从对数变换到深度框架:逻辑回归与交叉熵的数学原理及PyTorch实战
  • ssh启动不了报错
  • 3台CentOS虚拟机部署 StarRocks 1 FE+ 3 BE集群
  • React19源码阅读之commitRoot
  • OpenBMC:BmcWeb login创建session
  • Spring Boot + MyBatis-Plus 的现代开发模式
  • 基于 EFISH-SBC-RK3588 的无人机通信云端数据处理模块方案‌
  • QT构建即时通讯应用--WebSocket全面解析与实战指南
  • 3. pandas笔记之:创建
  • 助力网站优化利用AI批量生成文章工具提升质量
  • 【QT网络】构建简单Udp回显服务器
  • ArrayList与顺序表详解
  • C# 结构(Struct)
  • 【AI News | 20250424】每日AI进展
  • 文件操作、流对象示例
  • Spring AI简介
  • vscode vue文件单行注释失效解决办法
  • 基于Keras3.x使用CNN实现简单的猫狗分类