【AI论文】VideoReasonBench:多模态大语言模型(MLLMs)能否执行以视觉为中心的复杂视频推理?
摘要:最近的研究表明,长链式思维(CoT)推理可以显著提高大型语言模型(LLMs)在复杂任务上的性能。 然而,这一优势在视频理解领域尚未得到证实,因为大多数现有的基准缺乏证明扩展CoT链优势所需的推理深度。 虽然最近的研究提出了针对视频推理的基准,但这些任务通常是知识驱动的,并不严重依赖于视觉内容。 为了弥合这一差距,我们引入了VideoReasonBench,这是一个旨在评估以视觉为中心的复杂视频推理的基准。 为了确保视觉丰富性和高推理复杂性,VideoReasonBench中的每个视频都描述了仅在视频的一部分中可见的潜在状态上的细粒度操作序列。 这些问题评估了三个逐步升级的视频推理技能水平:回忆观察到的视觉信息,推断潜在状态的内容,以及预测视频以外的信息。 在这样的任务设置下,模型必须精确地回忆视频中的多个操作,并进行逐步推理,以获得这些问题的正确最终答案。 我们使用VideoReasonBench全面评估了18种最先进的多模态LLM(MLLM),发现大多数在复杂的视频推理方面表现不佳,例如GPT-4o的准确率仅为6.9%,而思维增强的Gemini-2.5-Pro的准确率高达56.0%,明显优于其他模型。 我们对“测试时间缩放”的调查进一步表明,扩展思维预算虽然在现有视频基准测试中没有提供任何好处或只有微弱的好处,但对于提高VideoReasonBench的性能至关重要。Huggingface链接:Paper page,论文链接:2505.23359
一、研究背景和目的
研究背景:
近年来,大型语言模型(LLMs)在复杂任务中的表现取得了显著进展,特别是通过长链式思维(Chain-of-Thought, CoT)推理,这些模型在数学、编码和科学推理等领域展现出了强大的问题解决能力。然而,在视频理解领域,这一优势尚未得到充分体现。尽管已有研究提出了针对视频推理的基准,但这些基准往往侧重于知识驱动的任务,而非深度依赖视觉内容的推理。此外,现有视频基准测试中的推理深度不足以展示扩展CoT链的优势,导致LLMs在视频推理任务上的表现未能充分展现其潜力。
研究目的:
为了填补这一空白,本研究引入了VideoReasonBench,这是一个专门设计用于评估以视觉为中心的复杂视频推理能力的基准。通过VideoReasonBench,我们旨在回答一个核心问题:多模态大语言模型(MLLMs)能否执行以视觉为中心的复杂视频推理?为了实现这一目标,我们确保VideoReasonBench中的每个视频都包含丰富的视觉信息和高度复杂的推理需求,从而全面评估MLLMs在视频推理任务上的表现。
二、研究方法
1. 基准设计:
VideoReasonBench基准包含六个类别的视频演示,每个类别都展示了在潜在状态上执行的一系列细粒度操作。潜在状态仅在视频的部分时间段内可见,而操作序列则是完全可见的。这种设计既保证了视觉复杂性,又促进了推理复杂性,因为模型需要推断出潜在状态的变化。
2. 任务定义:
我们定义了三个层次的视频推理技能,每个层次包含两个子任务:
- 层次1(回忆):要求精确回忆视频中的顺序视觉观察,包括回忆操作顺序和计数特定操作的出现次数。
- 层次2(推断):评估关于潜在状态的推理能力,包括推断潜在状态的内容和比较不同时刻的潜在状态。
- 层次3(预测):要求基于推断的信息进行预测,包括预测未来状态和预测达到目标状态所需的操作序列。
3. 数据集构建:
我们设计了一个半自动的数据集构建框架,包括视频引擎和问题引擎。视频引擎根据给定的配置生成状态转换和视频,而问题引擎则根据状态转换生成问题和答案。通过这种方式,我们构建了一个包含1440个问题和240个视频的数据集,每个视频演示和推理技能都有相等数量的问题。
4. 模型评估:
我们在VideoReasonBench上评估了18种最先进的多模态LLM(MLLM),包括专有模型和开源模型。评估过程中,我们采用了严格的评估方案,包括使用文本专用LLM来评估模型响应的正确性。此外,我们还分析了不同思考预算和视觉输入条件对模型性能的影响。
三、研究结果
1. 模型性能:
实验结果表明,大多数最先进的多模态LLM在VideoReasonBench上的表现不佳。具体而言,所有活跃参数少于10B的“高效模型”准确率均低于2%,而旗舰模型(72B+活跃参数)的准确率也低于10%。即使是专有模型GPT-4o,其准确率也仅为6.9%。相比之下,思维增强的Gemini-2.5-Pro表现出色,准确率达到了56.0%。这一结果凸显了VideoReasonBench的挑战性,并表明现有MLLMs在复杂视频推理任务上仍有很大的提升空间。
2. 思考的重要性:
我们的分析表明,思考对于提高VideoReasonBench上的性能至关重要。与传统的非思考MLLM相比,思维增强的模型表现出显著优势。例如,即使使用相同的模型(如Gemini-2.5-Flash),启用思考模式后,性能从18.8%提升到27.4%。这一发现强调了明确推理机制和扩展CoT链在解决复杂视频推理问题中的重要性。
3. 视觉依赖性:
VideoReasonBench的设计强调了视觉内容的依赖性。通过去除视频中的视觉信息,我们发现模型性能大幅下降。例如,在VideoReasonBench上,去除50%的视频帧导致性能下降55%,而在其他基准测试中,这一降幅通常小于7%。这一结果突出了VideoReasonBench对视觉内容的强烈依赖性,并表明现有视频基准测试在评估视觉推理能力方面存在不足。
4. 视频复杂性的影响:
我们还分析了视频复杂性对模型性能的影响。通过调整操作次数和状态大小,我们发现模型性能随着视频复杂性的增加而下降。这一发现表明,VideoReasonBench能够灵活地调整基准测试的难度,以适应未来的评估需求。
四、研究局限
1. 数据集规模:
尽管VideoReasonBench包含1440个问题和240个视频,但相对于整个视频推理领域而言,这一规模仍然有限。未来研究可以进一步扩展数据集规模,以涵盖更多样化的视频演示和推理任务。
2. 模型多样性:
本研究评估了18种最先进的多模态LLM,但模型种类仍然有限。未来研究可以包括更多类型的模型,特别是那些专门针对视频推理任务进行优化的模型,以更全面地评估MLLMs在视频推理任务上的表现。
3. 评估指标:
本研究采用了严格的评估方案,但评估指标仍然可以进一步完善。例如,可以考虑引入更多维度的评估指标,如推理过程的透明度、可解释性等,以更全面地评估MLLMs在视频推理任务上的能力。
4. 人类基准:
尽管我们提供了人类基准作为参考,但人类在视频推理任务上的表现仍然受到多种因素的影响,如注意力集中程度、疲劳程度等。未来研究可以进一步探讨如何更准确地评估人类在视频推理任务上的表现,并与MLLMs进行更公平的比较。
五、未来研究方向
1. 模型优化:
未来的研究可以探索如何优化MLLMs以更好地执行以视觉为中心的复杂视频推理任务。这可能包括改进模型的架构、训练算法和推理策略等方面。例如,可以研究如何更有效地整合视觉和文本信息,以提高模型在视频推理任务上的表现。
2. 数据集扩展:
为了更全面地评估MLLMs在视频推理任务上的能力,未来的研究可以进一步扩展VideoReasonBench数据集。这可能包括增加更多样化的视频演示、推理任务和评估指标等方面。通过扩展数据集规模,我们可以更准确地评估MLLMs在不同场景下的表现,并推动视频推理领域的发展。
3. 跨模态融合:
视频推理任务通常涉及视觉和文本两种模态的信息。未来的研究可以探索如何更有效地融合这两种模态的信息,以提高模型在视频推理任务上的表现。例如,可以研究如何设计跨模态注意力机制、多模态融合层等组件,以更好地整合视觉和文本信息。
4. 实时推理应用:
除了评估MLLMs在视频推理任务上的表现外,未来的研究还可以探索如何将这些模型应用于实时推理场景中。例如,可以研究如何将MLLMs集成到视频监控、自动驾驶等系统中,以实现实时的视频推理和分析。这将有助于推动MLLMs在实际应用中的落地和发展。
5. 解释性和透明度:
随着MLLMs在视频推理任务上的表现不断提高,模型的解释性和透明度也变得越来越重要。未来的研究可以探索如何提高MLLMs在视频推理任务上的解释性和透明度,以便更好地理解模型的决策过程和推理逻辑。这可能包括开发新的可视化工具、解释性算法等方面的工作。
6. 多任务学习:
视频推理任务通常涉及多个子任务,如目标检测、跟踪、行为识别等。未来的研究可以探索如何利用多任务学习的方法来提高MLLMs在视频推理任务上的整体表现。通过同时优化多个子任务的目标函数,我们可以使模型更好地捕捉视频中的复杂信息和关系,从而提高视频推理的准确性和效率。
综上所述,VideoReasonBench作为一个新的基准,为评估MLLMs在以视觉为中心的复杂视频推理任务上的表现提供了有力的工具。通过本研究,我们揭示了现有MLLMs在这一领域的局限性,并提出了未来研究的方向和挑战。我们期待未来研究能够进一步推动视频推理领域的发展,并使MLLMs在更多实际应用中发挥重要作用。