视觉问答大模型速递:Skywork-R1V2-38B
Skywork-R1V2-38B速读
一、模型概述
Skywork-R1V2-38B是一种最先进的开源多模态推理模型,在多项基准测试中表现卓越。它在MMMU测试中以73.6%的得分位居所有开源模型之首,在OlympiadBench测试中以62.6%的得分大幅领先于其他开源模型。此外,R1V2在MathVision、MMMU-Pro和MathVista等测试中也表现出色,能够与专有商业模型相媲美。总体而言,R1V2是一款结合强大视觉推理和文本理解能力的高性能开源视觉语言模型(VLM)。
二、模型详情
R1V2-38B的视觉编码器采用InternViT-6B-448px-V2_5,语言模型基于Qwen/QwQ-32B。该模型在Hugging Face平台上提供,用户可以通过链接访问相关资源。此外,R1V2还提供了详细的报告、GitHub代码库以及ModelScope平台上的相关信息。
三、评估结果
R1V2-38B在多个测试中展现了强大的性能。例如,在AIME24测试中,R1V2-38B的得分为78.9%,在LiveCodebench测试中为63.6%,在liveBench测试中为73.2%,在IFEVAL测试中为82.9%,在BFCL测试中为66.3%。相比之下,R1V1-38B和其他大型开源模型如Deepseek-R1-671B在这些测试中的表现均不如R1V2-38B。此外,R1V2-38B在与其他专有模型的对比中也表现出色。
四、使用方法
要使用R1V2模型,用户需要先克隆其GitHub仓库,然后设置环境。对于Transformers推理,用户需要创建一个名为r1-v的conda环境,并运行setup.sh脚本。对于vLLM推理,用户需要创建一个名为r1v-vllm的conda环境,并安装vLLM。最后,用户可以通过运行相应的推理脚本进行多模态推理,例如使用inference_with_transformers.py或inference_with_vllm.py脚本,并指定模型路径、图片路径和问题。