当前位置：首页 > news >正文

上海交大：推理驱动的多模态提示重写

news 2025/8/27 10:47:41

在这里插入图片描述

📖标题：VLMGuard-R1: Proactive Safety Alignment for VLMs via Reasoning-Driven Prompt Optimization
🌐来源：arXiv, 2504.12661

🌟摘要

🔸使视觉语言模型（VLM）与安全标准相一致对于减轻其多模态复杂性带来的风险至关重要，在这种复杂性中，视觉和语言的整合揭示了传统保障措施无法触及的微妙威胁。
🔸受跨模态推理是抢占复杂漏洞的关键这一观点的启发，我们提出了VLM安全的一个新方向：多模态推理驱动的提示重写。为此，我们引入了VLMGuard-R1，这是一个主动框架，通过推理引导的重写器优化用户输入，动态解释文本图像交互，以提供优化的提示，在不改变其核心参数的情况下提高不同VLM架构的安全性。为了实现这一点，我们设计了一个三阶段推理管道来合成一个数据集，该数据集训练重写器推断微妙的威胁，从而对通用的拒绝做出量身定制的、可操作的反应。
🔸使用五个VLM在三个基准上进行的广泛实验表明，VLMGuard-R1的表现优于四个基准。特别是，VLMGuard-R1在SIUO基准的五个型号中，平均安全性显著提高了43.59%。

🛎️文章简介

🔸研究问题：觉语言模型（VLM）在处理文本和图像交互时存在安全性问题，尤其是在动态需求下的快速迭代和适应能力。
🔸主要贡献：论文提出了一种名为VLMGuard-R1的框架，通过多模态推理驱动的提示重写方法，增强VLM的安全性，避免了对模型参数的直接调整，从而降低了计算成本和时间。

📝重点思路

🔸构建一个基于三阶段多模态推理管道的数据集，采用监督微调（SFT）训练一个可靠的提示重写器。
🔸在推理阶段，经过训练的提示重写器通过三阶段的推理流程（回顾分析、多模态因果分析和提示优化），将用户输入的提示进行优化，以减少潜在的风险并生成安全的输出。
🔸通过分析安全和不安全的响应，进行事后分析，以识别导致不安全输出的因素，并利用这些信息进行提示优化。

🔎分析总结

🔸实验结果表明，VLMGuard-R1在多个基准测试中持续超越现有的外部安全保障方法，展示了其在确保安全性方面的优越性。
🔸VLMGuard-R1在五种模型上实现了43.59%的平均安全性提升，证明其有效性。
🔸该框架能够在不牺牲实用性的情况下维护模型的安全性，适用于真实世界中的应用场景。
🔸通过与基线方法的比较，VLMGuard-R1展示了更好的适应性和鲁棒性，能够处理复杂的多模态风险。