当前位置：首页 > backend >正文

深度学习论文idea：多模态检索

backend 2025/8/6 18:37:22

🧀关注各大顶会的同学们都知道，今年多模态相关的主题可谓是火爆非常，有许多突破性成果被提出，比如最新的多模态检索增强框架MORE，生成性能猛超GPT-4！

🧀再比如多模态检索模型MARVEL，在所有基准上实现SOTA！可见相比传统单一模态检索，这种多模态检索更具优势，不仅能提供更全面、更准确的检索结果，也能帮助我们提升工作效率。

🧀目前多模态检索逐渐成为了研究焦点，因为它的全面性、准确性和灵活性在多个领域（比如图像检索、医疗诊断等）都很有用武之地，是个拥有广泛应用前景的热门方向。

🧀因此对论文er来说，这也是个很好的发文选择。为了帮助各位快速了解这个方向的最新动态，我整理好了10篇多模态检索今年最新的论文给各位作参考，代码基本都有。

我整理了一些时间序列【论文+代码】合集，需要的同学公人人人号【AI科研算法paper】发555自取

论文1

标题：

方法：

创新点：

性能提升：在Encyclopedic-VQA和InfoSeek数据集上，与不使用外部知识源的模型相比，使用分层检索的Wiki-LLaVA模型在准确率上分别提高了13.8%和22.6%。
多模态融合：将视觉特征、检索到的文档和段落以及用户问题融合，为MLLMs提供了更丰富的上下文信息，提高了生成答案的质量。
扩展性：该方法可以扩展到其他多模态任务和数据集，为多模态LLMs的进一步发展提供了新的方向。

论文2

标题：

方法：

创新点：

论文3

标题：

方法：

创新点：

检索准确率提升：与Zero-shot CLIP相比，Snap’n Diagnose在Top-1、Top-5、Top-10准确率和mAP上分别提高了26.4%、14.86%、13.29%和10.62%。
多模态融合：通过将图像和文本描述嵌入到同一潜在空间中，实现了有效的跨模态检索。
用户友好性：提供了一个用户友好的交互界面，简化了检索过程，使用户能够轻松地上传图像或输入文本描述。
数据集丰富性：利用丰富的PlantWild数据集，提供了多样化的植物疾病样本，提高了系统的准确性和实用性。

论文4

标题：

方法：

创新点：

检索准确率提升：在Charades-STA、QVHighlights和ActivityNet Captions数据集上，Mr. BLIP模型分别在R1@0.5和R1@0.7指标上取得了新的最高性能，分别提高了10.84%、14.27%、15.21%、16.52%、13.32%和10.05%。
多模态融合：通过将视频帧、时间戳和查询文本嵌入到同一序列中，为MLLMs提供了丰富的上下文信息，提高了模型的检索能力。
参数高效微调：使用LoRA技术进行参数高效微调，只训练1900万参数，显著减少了计算资源的需求。
开放式的序列到序列问题：将视频时刻检索任务转化为一个开放式的序列到序列问题，使模型能够生成可变数量的相关时刻，提高了模型的灵活性和准确性。