AI推介-大语言模型LLMs论文速览(arXiv方向):2024.12.20-2024.12.25
文章目录~
- 1.Long-Range Tasks Using Short-Context LLMs: Incremental Reasoning With Structured Memories
- 2.LLM-assisted Vector Similarity Search
- 3.Improving Generated and Retrieved Knowledge Combination Through Zero-shot Generation
- 4.Using Large Language Models for Automated Grading of Student Writing about Science
- 5.Enhanced Recommendation Combining Collaborative Filtering and Large Language Models
- 6.CypherBench: Towards Precise Retrieval over Full-scale Modern Knowledge Graphs in the LLM Era
- 7.Zero-resource Speech Translation and Recognition with LLMs
- 8.Harnessing Large Language Models for Knowledge Graph Question Answering via Adaptive Multi-Aspect Retrieval-Augmentation
- 9.DynaGRAG: Improving Language Understanding and Generation through Dynamic Subgraph Representation in Graph Retrieval-Augmented Generation
- 10.Multi-Agents Based on Large Language Models for Knowledge-based Visual Question Answering
- 11.ERPA: Efficient RPA Model Integrating OCR and LLMs for Intelligent Document Processing
- 12.Property Enhanced Instruction Tuning for Multi-task Molecule Generation with Large Language Models
- 13.Dynamic Multi-Agent Orchestration and Retrieval for Multi-Source Question-Answer Systems using Large Language Models
- 14.VidCtx: Context-aware Video Question Answering with Image Models
- 15.Better Think with Tables: Leveraging Tables to Enhance Large Language Model Comprehension
- 16.Enhancing Item Tokenization for Generative Recommendation through Self-Improvement
- 17.SAIL: Sample-Centric In-Context Learning for Document Information Extraction
- 18.GME: Improving Universal Multimodal Retrieval by Multimodal LLMs
- 19.TimeRAG: BOOSTING LLM Time Series Forecasting via Retrieval-Augmented Generation
- 20.Evaluating and Enhancing LLMs for Multi-turn Text-to-SQL with Multiple Question Types
1.Long-Range Tasks Using Short-Context LLMs: Incremental Reasoning With Structured Memories
标题:使用短上下文 LLMs 的远程任务:利用结构化记忆进行增量推理
author:Dulhan Jayalath, James Bradley Wendt, Nicholas Monath, Sandeep Tata, Beliz Gunel
publish:23 pages, 7 figures, 5 tables
date Time:2024-12-25
paper pdf:http://arxiv.org/pdf/2412.18914v1
摘要:
远程任务需要对长输入进行推理。现有的解决方案要么需要大量的计算预算、训练数据、访问模型权重,要么使用复杂的特定任务方法。我们提出的 PRISM 可将信息作为块流进行处理,并维护由类型化层次结构模式指定的结构化上下文内存,从而缓解了这些问题。这种方法在各种任务上的性能都优于基准方法,同时使用的上下文比长上下文模型至少小 4 倍。此外,PRISM 还具有标记效率。通过产生短输出和有效利用键值(KV)缓存,与其他短上下文方法相比,该方法最多可降低 54% 的成本。该方法还可缩减到极小的信息块(如 500 个标记),而不会增加编码标记的数量或牺牲质量。此外,我们还展示了生成模式的可能性,从而以最小的代价将我们的方法推广到新的任务中。
2.LLM-assisted Vector Similarity Search
标题:LLM 辅助矢量相似性搜索
author:Md Riyadh, Muqi Li, Felix Haryanto Lie, Jia Long Loh, Haotian Mi, Sayam Bohra
date Time:2024-12-25
paper pdf:http://arxiv.org/pdf/2412.18819v2
摘要:
随着数据检索需求变得越来越复杂,传统的搜索方法往往无法解决细微的概念性查询。矢量相似性搜索已成为高效查找语义相似信息的一种有前途的技术。然而,在处理具有上下文细微差别的复杂查询时,它的效果会大打折扣。本文探讨了一种将矢量相似性搜索与大语言模型(LLM)相结合的混合方法,以提高搜索的准确性和相关性。所提出的两步解决方案首先使用向量相似性搜索来筛选潜在的匹配结果,然后使用 LLM 对结果进行上下文感知排序。在结构化数据集上进行的实验表明,虽然单独的矢量相似性搜索在处理简单查询时表现出色,但 LLM 辅助方法在处理涉及约束、否定或概念要求的复杂查询时表现出色。通过利用 LLM 的自然语言理解能力,这种方法在不牺牲效率的情况下提高了复杂任务搜索结果的准确性。我们还讨论了现实世界中的应用,并提出了未来的研究方向,以针对不同的数据集和用例完善和扩展这项技术。 原文:https://engineering.grab.com/llm-assisted-vector-similarity-search
3.Improving Generated and Retrieved Knowledge Combination Through Zero-shot Generation
标题:通过零点生成改进生成知识与检索知识的结合
author:Xinkai Du, Quanjie Han, Chao Lv, Yan Liu, Yalin Sun, Hao Shu, Hongbo Shan, Maosong Sun
publish:Accepted by ICASSP 2025
date Time:2024-12-25
paper pdf:http://arxiv.org/pdf/2412.18800v1
摘要:
开放域问题解答(QA)结合了忠实检索段落和通过大型语言模型(LLM)生成的相关段落的优势,因此受到了广泛关注。然而,目前还缺乏可用于将这些知识来源配对的明确标签。为了解决这个问题,我们提出了一个无监督的简单框架,称为 “生成知识与检索知识合并的重新排序(Bi-Reranking for Merging Generated and Retrieved Knowledge,BRMGR)”,它利用重新排序方法对检索到的段落和 LLM 生成的段落进行重新排序。我们使用两种不同的重新排序方法将两类段落配对,然后通过贪婪匹配将它们合并。我们证明,在为每个检索到的段落分配相应的 LLM 生成段落时,BRMGR 等同于采用双匹配损失。我们的模型在三个数据集上的应用取得了实验结果,在 NQ 和 WebQ 数据集上的性能分别提高了+1.7 和+1.6,在 TriviaQA 数据集上的结果与竞争基线相当。
4.Using Large Language Models for Automated Grading of Student Writing about Science
标题:使用大型语言模型对学生的科学写作进行自动评分
author:Chris Impey, Matthew Wenger, Nikhil Garuda, Shahriar Golchin, Sarah Stamer
publish:Accepted at IJAIE
date Time:2024-12-25
paper pdf:http://arxiv.org/pdf/2412.18719v1
摘要:
在正规或非正规学习者的大班中评估写作是一项重大挑战。因此,大多数大班教学,尤其是理科大班教学,都依赖于客观的评估工具,如多选测验,这种测验只有一个正确答案。人工智能的快速发展为使用大型语言模型(LLM)来评估学生写作提供了可能。我们使用 GPT-4 进行了一项实验,以确定基于 LLM 的机器学习方法在评价天文学主题的简短写作作业时,是否能够达到或超过教师评分的可靠性。受众包括通过 Coursera 提供的三门大规模开放在线课程 (MOOC) 的成人学习者。其中一门是天文学课程,第二门是天体生物学课程,第三门是天文学历史与哲学课程。这些结果应该也适用于大学环境中的非理科专业,因为这些课程的内容和评价模式与之相似。数据包括 120 名学生对三门课程中 12 个问题的回答。GPT-4 提供了三门课程的总成绩、答案范本和教师提供的评分标准。除了评估 LLM 重现教师评分的可靠程度外,LLM 还负责生成自己的评分标准。总体而言,在所有三门在线课程中,不论是总体评分还是学生个人评分,LLM 都比同行评分更可靠,而且与教师评分基本吻合。这意味着,LLM 可能很快就会被用于对学生的科学写作进行自动、可靠和可扩展的评分。
5.Enhanced Recommendation Combining Collaborative Filtering and Large Language Models
标题:结合协作过滤和大型语言模型的增强型推荐
author:Xueting Lin, Zhan Cheng, Longfei Yun, Qingyi Lu, Yuanshuai Luo
date Time:2024-12-25
paper pdf:http://arxiv.org/pdf/2412.18713v1
摘要:
随着信息爆炸时代的到来,推荐系统在各种应用中的重要性日益凸显。传统的协同过滤算法由于能有效捕捉用户行为模式而被广泛应用,但在处理冷启动问题和数据稀少问题时却遇到了限制。大型语言模型(LLM)具有强大的自然语言理解和生成能力,为推荐系统提供了新的突破口。本研究提出了一种结合协同过滤和大语言模型的增强型推荐方法,旨在利用协同过滤在用户偏好建模方面的优势,同时通过大语言模型增强对用户和项目文本信息的理解,从而提高推荐的准确性和多样性。本文首先介绍了协同过滤和 LLMs 的基本理论,然后设计了一个将二者整合在一起的推荐系统架构,并通过实验验证了系统的有效性。结果表明,基于协同过滤和 LLMs 的混合模型显著提高了精确度、召回率和用户满意度,证明了其在复杂推荐场景中的潜力。
6.CypherBench: Towards Precise Retrieval over Full-scale Modern Knowledge Graphs in the LLM Era
标题:CypherBench:在 LLM 时代实现对大规模现代知识图谱的精确检索
author:Yanlin Feng, Simone Papicchio, Sajjadur Rahman
date Time:2024-12-24
paper pdf:http://arxiv.org/pdf/2412.18702v1
摘要:
从图数据中检索对于利用开放域知识和私人企业数据增强大型语言模型(LLM)至关重要,这也是最近的 GraphRAG 系统(edge 等人,2024 年)的关键组成部分。尽管对知识图谱和知识库问题解答进行了数十年的研究,但领先的 LLM 框架(如 Langchain 和 LlamaIndex)对从维基数据(Wikidata)等现代百科全书式知识图谱进行检索的支持微乎其微。在本文中,我们分析了其根本原因,并提出现代 RDF 知识图谱(如 Wikidata、Freebase)对于 LLM 的效率较低,这是因为它们的模式过于庞大,远远超出了典型的 LLM 上下文窗口、资源标识符的使用、关系类型的重叠以及缺乏规范化。作为一种解决方案,我们提出了底层 RDF 图之上的属性图视图,LLM 可以使用 Cypher 高效地查询这些属性图。我们在维基数据(Wikidata)上实现了这一想法,并推出了 CypherBench,这是首个具有 11 个大规模、多领域属性图的基准,其中包含 780 万个实体和超过 10,000 个问题。为此,我们解决了几个关键难题,包括开发 RDF 到属性图的转换引擎、创建文本到 Cypher 任务生成的系统管道,以及设计新的评估指标。
7.Zero-resource Speech Translation and Recognition with LLMs
标题:利用 LLM 实现零资源语音翻译和识别
author:Karel Mundnich, Xing Niu, Prashant Mathur, Srikanth Ronanki, Brady Houston, Veera Raghavendra Elluru, Nilaksh Das, Zejiang Hou, Goeric Huybrechts, Anshu Bhatia, Daniel Garcia-Romero, Kyu J. Han, Katrin Kirchhoff
publish:ICASSP 2025, 5 pages, 2 figures, 2 tables
date Time:2024-12-24
paper pdf:http://arxiv.org/pdf/2412.18566v2
摘要:
尽管语音处理技术近年来取得了长足进步,但零资源语音翻译(ST)和自动语音识别(ASR)仍然是具有挑战性的问题。在这项工作中,我们建议利用多语言大型语言模型(LLM),在该模型从未见过配对音频文本数据的语言中执行 ST 和 ASR。为此,我们使用了预先训练好的多语言语音编码器、多语言 LLM 和轻量级适配模块,将音频表示映射到 LLM 的标记嵌入空间。我们在 ST 和 ASR 中进行了多次实验,以了解如何对模型进行最佳训练,以及哪些数据对以前未见过的语言的性能影响最大。在 ST 中,我们的最佳模型能够在 CoVoST2 中对两种以前从未见过的语言取得超过 23 分的 BLEU 分数,而在 ASR 中,我们取得了高达 28.2% 的 WER。我们最后证明,我们系统的性能受限于 LLM 以所需语言输出文本的能力。
8.Harnessing Large Language Models for Knowledge Graph Question Answering via Adaptive Multi-Aspect Retrieval-Augmentation
标题:通过自适应多方面检索-增强技术利用大型语言模型进行知识图谱问题解答
author:Derong Xu, Xinhang Li, Ziheng Zhang, Zhenxi Lin, Zhihong Zhu, Zhi Zheng, Xian Wu, Xiangyu Zhao, Tong Xu, Enhong Chen
publish:Accepted by AAAI’2025
date Time:2024-12-24
paper pdf:http://arxiv.org/pdf/2412.18537v2
摘要:
大型语言模型(LLMs)展现出了非凡的能力,但在完成复杂的知识推理任务时,却很难摆脱幻觉和过时知识的困扰,导致输出的结果与事实不符。以往的研究试图通过从大规模知识图谱(KG)中检索事实知识来帮助 LLM 进行逻辑推理和预测答案,从而缓解这一问题。然而,这种方法往往会引入噪音和不相关数据,尤其是在具有来自多个知识方面的广泛背景的情况下。这样,LLM 的注意力可能会被问题和相关信息误导。在我们的研究中,我们引入了一个 “自适应多方面检索–KGs 上的增强”(Amar)框架。该方法可检索包括实体、关系和子图在内的知识,并将检索到的每段文本转换为提示嵌入。Amar 框架包括两个关键的子组件:1) 自对齐模块,用于对齐实体、关系和子图之间的共性,以增强检索到的文本,从而减少噪声干扰;2) 相关性门控模块,采用软门学习问题和多方面检索数据之间的相关性得分,以确定哪些信息应被用于增强 LLMs 的输出,甚至被完全过滤掉。我们的方法在 WebQSP 和 CWQ 这两个常见数据集上取得了最先进的性能,与最好的竞争对手相比,准确率提高了 1.9%,与直接使用检索文本作为上下文提示的方法相比,逻辑表单生成提高了 6.6%。这些结果证明了 Amar 在改进 LLMs 推理方面的有效性。
9.DynaGRAG: Improving Language Understanding and Generation through Dynamic Subgraph Representation in Graph Retrieval-Augmented Generation
标题:DynaGRAG:在图形检索增强生成中通过动态子图表示改进语言理解和生成
author:Karishma Thakrar
date Time:2024-12-24
paper pdf:http://arxiv.org/pdf/2412.18644v1
摘要:
图形检索-增强生成(GRAG 或 Graph RAG)架构旨在通过利用外部知识来增强语言理解和生成。然而,有效捕捉和整合文本和结构化数据中的丰富语义信息仍然是一项挑战。为了解决这个问题,我们提出了一个新颖的 GRAG 框架,重点是增强知识图谱中的子图谱表示和多样性。通过提高图密度、更有效地捕捉实体和关系信息以及动态地优先处理相关和多样化的子图,所提出的方法能够更全面地理解底层语义结构。要实现这一点,需要将去重过程、嵌入的两步均值池、考虑唯一节点的查询感知检索以及动态相似感知 BFS(DSA-BFS)遍历算法结合起来。通过硬提示将图卷积网络(GCN)和大语言模型(LLM)整合在一起,进一步增强了对丰富的节点和边缘表征的学习,同时保留了分层子图结构。在多个基准数据集上的实验结果证明了所提出的 GRAG 框架的有效性,展示了增强子图表示和多样性对于改进语言理解和生成的重要意义。
10.Multi-Agents Based on Large Language Models for Knowledge-based Visual Question Answering
标题:基于大型语言模型的多代理,用于基于知识的视觉问题解答
author:Zhongjian Hu, Peng Yang, Bing Li, Zhenqi Wang
date Time:2024-12-24
paper pdf:http://arxiv.org/pdf/2412.18351v1
摘要:
大型语言模型(LLM)在基于知识的可视化问题解答(VQA)方面取得了令人瞩目的成果。然而,现有的方法仍然面临挑战:无法自主使用外部工具,无法团队协作。人类在遇到新问题时往往知道自己是否需要使用外部工具,例如,他们往往能够直接回答熟悉的问题,而在遇到不熟悉的问题时则倾向于使用搜索引擎等工具。此外,人类还倾向于与他人合作和讨论,以获得更好的答案。受此启发,我们提出了多代理投票框架。我们设计了三个基于 LLM 的代理,模拟团队中不同级别的员工,并根据级别分配可用工具。每个代理提供相应的答案,最后对所有代理提供的答案进行投票,得出最终答案。在 OK-VQA 和 A-OKVQA 上的实验表明,我们的方法分别比其他基线方法优胜 2.2 和 1.0。
11.ERPA: Efficient RPA Model Integrating OCR and LLMs for Intelligent Document Processing
标题:ERPA:集成 OCR 和 LLM 以实现智能文档处理的高效 RPA 模型
author:Osama Abdellaif, Abdelrahman Nader, Ali Hamdi
publish:6 pages , 2 figures, 1 algorithm
date Time:2024-12-24
paper pdf:http://arxiv.org/pdf/2412.19840v1
摘要:
本文介绍的 ERPA 是一种创新的机器人流程自动化 (RPA) 模型,旨在加强身份证数据提取并优化移民工作流程中的光学字符识别 (OCR) 任务。传统的 RPA 解决方案在处理大量文件时往往面临性能限制,导致效率低下。ERPA 通过整合大型语言模型 (LLM) 来提高提取文本的准确性和清晰度,有效处理模糊字符和复杂结构,从而应对这些挑战。与 UiPath 和 Automation Anywhere 等领先平台的基准比较表明,ERPA 可将处理时间大幅缩短 94%,仅需 9.94 秒即可完成 ID 数据提取。这些发现凸显了 ERPA 彻底改变文档自动化的潜力,为当前的 RPA 解决方案提供了更快、更可靠的替代方案。
12.Property Enhanced Instruction Tuning for Multi-task Molecule Generation with Large Language Models
标题:利用大型语言模型进行多任务分子生成的属性增强指令调整
author:Xuan Lin, Long Chen, Yile Wang, Xiangxiang Zeng, Philip S. Yu
date Time:2024-12-24
paper pdf:http://arxiv.org/pdf/2412.18084v1
摘要:
大型语言模型(LLM)被广泛应用于各种自然语言处理任务,如问题解答和机器翻译。然而,由于缺乏标注数据以及人工标注生化属性的困难,分子生成任务的性能仍然有限,尤其是涉及多属性约束的任务。在这项工作中,我们提出了一个两步框架 PEIT(属性增强指令调整)来改进分子相关任务的 LLM。第一步,我们使用文本描述、SMILES 和生化属性作为多模态输入,通过对齐多模态表征来合成指令数据,从而预训练一个名为 PEIT-GEN 的模型。第二步,我们利用合成数据对现有的开源 LLM 进行微调,得到的 PEIT-LLM 可以处理分子标题、基于文本的分子生成、分子性质预测以及我们新提出的多约束分子生成任务。实验结果表明,我们预先训练好的 PEIT-GEN 在分子标题方面的表现优于 MolT5 和 BioT5,这表明文本描述、结构和生化特性之间的模态非常一致。此外,PEIT-LLM 在多任务分子生成方面取得了可喜的进步,证明了 PEIT 框架在各种分子任务中的可扩展性。我们在 https://github.com/chenlong164/PEIT 上发布了代码、构建的指令数据和模型检查点。
13.Dynamic Multi-Agent Orchestration and Retrieval for Multi-Source Question-Answer Systems using Large Language Models
标题:利用大型语言模型实现多源问答系统的动态多代理协调和检索
author:Antony Seabra, Claudio Cavalcante, Joao Nepomuceno, Lucas Lago, Nicolaas Ruberg, Sergio Lifschitz
publish:International Conference on NLP, AI, Computer Science & Engineering
(NLAICSE 2024)
date Time:2024-12-23
paper pdf:http://arxiv.org/pdf/2412.17964v1
摘要:
我们提出了一种将大型语言模型(LLM)检索中的几种先进技术相结合的方法,以支持开发稳健的多源问答系统。该方法旨在通过协调的多代理协调和动态检索方法,整合来自不同数据源的信息,包括非结构化文档(PDF)和结构化数据库。我们的方法利用专门的代理,如 SQL 代理、检索增强生成(RAG)代理和路由器代理,根据每个查询的性质动态选择最合适的检索策略。为了进一步提高准确性和上下文相关性,我们采用了动态提示工程,实时适应特定的查询上下文。我们在合同管理领域展示了该方法的有效性,在该领域,复杂的查询通常需要非结构化数据和结构化数据之间的无缝交互。我们的研究结果表明,这种方法提高了回答的准确性和相关性,为开发可跨不同领域和数据源运行的问答系统提供了一个多功能、可扩展的框架。
14.VidCtx: Context-aware Video Question Answering with Image Models
标题:VidCtx:利用图像模型进行上下文感知视频问题解答
author:Andreas Goulas, Vasileios Mezaris, Ioannis Patras
publish:Submitted for publication
date Time:2024-12-23
paper pdf:http://arxiv.org/pdf/2412.17415v1
摘要:
为了解决大型多模态模型在视频答题任务中的计算和内存限制问题,最近有几种方法提取了每帧的文字表述(例如,通过字幕),并将其输入到大型语言模型(LLM)中,由该模型对其进行处理,以生成最终的答案。然而,在这种方法中,大语言模型无法获取视觉信息,往往需要处理附近帧的重复文本描述。为了解决这些缺陷,我们在本文中介绍了 VidCtx,这是一种新型免训练视频质量保证框架,它集成了两种模式,即输入帧的视觉信息和其他帧的文字描述,从而提供适当的上下文。更具体地说,在提议的框架中,预先训练好的大型多模态模型(LMM)会定期提取视频帧的问题感知文本描述(字幕)。当输入 a) 特定帧、b) 问题和 c) 适当帧的上下文/字幕时,同一 LMM 将被用作回答当前问题的上下文。为了避免冗余信息,我们选择了远处画面的描述作为上下文。最后,我们采用了一种简单而有效的最大集合机制来汇总框架级决策。这种方法能使模型专注于视频的相关片段,并扩展到大量帧。实验表明,VidCtx 在三个公开视频质量保证基准(NExT-QA、IntentQA 和 STAR)上取得了与依赖开放模型的方法相当的性能。
15.Better Think with Tables: Leveraging Tables to Enhance Large Language Model Comprehension
标题:用表格更好地思考:利用表格加强对大型语言模型的理解
author:Jio Oh, Geon Heo, Seungjun Oh, Jindong Wang, Xing Xie, Steven Euijong Whang
publish:16 pages, 5 figures
date Time:2024-12-22
paper pdf:http://arxiv.org/pdf/2412.17189v1
摘要:
尽管大型语言模型(LLMs)近来取得了长足的进步,但它们在处理复杂查询时仍很吃力,因为这些查询往往涉及多个条件,而这在现实世界中是很常见的。我们提出了 “用表格思考”(Thinking with Tables)这一技术,帮助大型语言模型利用表格进行符合人类认知行为的中间思考。通过引入触发 LLM 在表格中组织信息的预指令,我们的方法实现了 40.29% 的平均相对性能提升、更高的鲁棒性,并显示了对不同请求、条件或场景的通用性。此外,我们还通过比较我们引入的四种不同结构层次的结果,展示了数据结构化对模型的影响。
16.Enhancing Item Tokenization for Generative Recommendation through Self-Improvement
标题:通过自我完善加强用于生成式推荐的项目标记化
author:Runjin Chen, Mingxuan Ju, Ngoc Bui, Dimosthenis Antypas, Stanley Cai, Xiaopeng Wu, Leonardo Neves, Zhangyang Wang, Neil Shah, Tong Zhao
date Time:2024-12-22
paper pdf:http://arxiv.org/pdf/2412.17171v1
摘要:
由大型语言模型(LLMs)驱动的生成式推荐系统,通过将项目建模为标记序列并以生成方式生成推荐,为预测用户偏好提供了一种创新方法。这种方法的一个关键挑战是对项目进行有效的标记化,确保它们以与 LLM 兼容的形式表示。目前的项目标记化方法包括使用文本描述、数字字符串或离散标记序列。虽然基于文本的表示法能与 LLM 标记化无缝集成,但它们往往过于冗长,导致效率低下,并使精确生成变得复杂。数字字符串虽然简洁,但缺乏语义深度,无法捕捉有意义的项目关系。将条目标记为新定义的标记序列的做法已得到广泛应用,但这通常需要外部模型或算法来进行标记分配。这些外部过程可能与 LLM 内部预训练的标记化模式不一致,从而导致不一致和模型性能下降。为了解决这些局限性,我们提出了一种自我完善的项目标记化方法,允许 LLM 在训练过程中完善自己的项目标记化。我们的方法从任何外部模型生成的项目标记开始,并根据 LLM 学习到的模式定期调整这些标记。这种调整过程可确保标记化与 LLM 对项目的内部理解保持一致,从而获得更准确的推荐。此外,我们的方法易于实现,可以作为即插即用的增强功能集成到现有的生成式推荐系统中。在多个数据集上使用各种初始标记化策略的实验结果证明了我们方法的有效性,推荐性能平均提高了 8%。
17.SAIL: Sample-Centric In-Context Learning for Document Information Extraction
标题:SAIL:针对文档信息提取的以样本为中心的上下文学习
author:Jinyu Zhang, Zhiyuan You, Jize Wang, Xinyi Le
publish:accepted by AAAI 2025
date Time:2024-12-22
paper pdf:http://arxiv.org/pdf/2412.17092v1
摘要:
文档信息提取(DIE)旨在从视觉丰富的文档(VRD)中提取结构化信息。以前的完全训练方法表现出了很强的性能,但在泛化到未见数据方面可能会有困难。相比之下,免训练方法利用强大的预训练模型(如大型语言模型 (LLM)),只需少量示例即可完成各种下游任务。然而,针对 DIE 的免训练方法遇到了两个主要挑战:(1)理解 VRD 中布局和文本元素之间的复杂关系;(2)为预训练模型提供准确指导。为了应对这些挑战,我们提出了针对 DIE 的以样本为中心的上下文学习(SAIL)方法。SAIL 引入了细粒度的实体级文本相似性,以促进 LLM 对文本的深入分析,并结合了布局相似性,以加强对 VRD 中布局的分析。此外,SAIL 还为各种以样本为中心的示例制定了统一的上下文学习(ICL)提示模板,实现了量身定制的提示,为每个样本的预训练模型提供精确指导。在 FUNSD、CORD 和 SROIE 基准上使用各种基础模型(如 LLM)进行的广泛实验表明,我们的方法优于免训练基准,甚至更接近完全训练方法。这些结果表明了我们的方法的优越性和通用性。
18.GME: Improving Universal Multimodal Retrieval by Multimodal LLMs
标题:GME:通过多模态 LLM 改进通用多模态检索
author:Xin Zhang, Yanzhao Zhang, Wen Xie, Mingxin Li, Ziqi Dai, Dingkun Long, Pengjun Xie, Meishan Zhang, Wenjie Li, Min Zhang
publish:32 pages, models at
https://huggingface.co/Alibaba-NLP/gme-Qwen2-VL-2B-Instruct
date Time:2024-12-22
paper pdf:http://arxiv.org/pdf/2412.16855v1
摘要:
通用多模态检索(UMR)旨在使用统一的模型实现跨模态搜索,其中查询和候选对象可以由纯文本、图像或两者的组合组成。以前的工作曾尝试采用多模态大语言模型(MLLM)来实现仅使用文本数据的 UMR。不过,我们的初步实验表明,更多样化的多模态训练数据可以进一步释放 MLLM 的潜力。尽管多模态训练数据非常有效,但现有的多模态训练数据在模态方面极不平衡,这促使我们开发了一个训练数据合成管道,并构建了一个大规模、高质量的融合模态训练数据集。在合成训练数据的基础上,我们开发了通用多模态嵌入器(GME),这是一种专为 UMR 设计的基于 MLLM 的密集检索器。此外,我们还构建了一个综合 UMR 基准(UMRB)来评估我们方法的有效性。实验结果表明,在现有的 UMR 方法中,我们的方法达到了最先进的性能。最后,我们对模型缩放、训练策略进行了深入分析,并对模型和合成数据进行了消融研究。
19.TimeRAG: BOOSTING LLM Time Series Forecasting via Retrieval-Augmented Generation
标题:TimeRAG:通过检索增强生成提高 LLM 时间序列预测能力
author:Silin Yang, Dong Wang, Haoqi Zheng, Ruochun Jin
date Time:2024-12-21
paper pdf:http://arxiv.org/pdf/2412.16643v1
摘要:
尽管大型语言模型(LLM)的兴起为时间序列预测带来了新的机遇,但现有的基于 LLM 的解决方案需要过多的训练,而且表现出有限的可移植性。鉴于这些挑战,我们提出了将检索增强生成(RAG)纳入时间序列预测 LLM 的框架 TimeRAG,该框架从历史序列中构建时间序列知识库,从知识库中检索与动态时间扭曲(DTW)测量的查询序列表现出相似模式的参考序列,并将这些参考序列和预测查询结合起来,作为对时间序列预测 LLM 的文本提示。在不同领域的数据集上进行的实验表明,整合 RAG 后,原始模型的预测准确率平均提高了 2.97%。
20.Evaluating and Enhancing LLMs for Multi-turn Text-to-SQL with Multiple Question Types
标题:评估和增强多问题类型的多轮文本到 SQL 的 LLM
author:Ziming Guo, Chao Ma, Yinggang Sun, Tiancheng Zhao, Guangyao Wang, Hai Huang
publish:20 pages, 3 figures
date Time:2024-12-21
paper pdf:http://arxiv.org/pdf/2412.17867v1
摘要:
大语言模型(LLM)的最新进展极大地推动了文本到 SQL 系统的发展。然而,大多数基于 LLM 的方法通常只专注于 SQL 生成,而忽略了真实世界会话查询的复杂性。这种疏忽会导致不可靠的回复,特别是对于无法直接用 SQL 解决的模糊问题。为了弥补这一缺陷,我们提出了 MMSQL,这是一个综合测试套件,旨在通过模拟真实世界中的各种问题类型和多轮 Q&A 交互场景,评估 LLM 的问题分类和 SQL 生成能力。利用 MMSQL,我们评估了流行的 LLM(包括开源和闭源模型)的性能,并确定了影响其在此类场景中性能的关键因素。此外,我们还引入了基于 LLM 的多代理框架,该框架采用专门代理来识别问题类型并确定适当的回答策略。我们的实验证明,这种方法大大提高了模型驾驭复杂会话动态的能力,有效地处理了用户查询的多样性和复杂性。