当前位置：首页 > ds >正文

LLM 推理：LLM 路由和分层技术的表征和分析

ds 2025/7/16 11:23:42

大家读完觉得有帮助记得关注和点赞！！！

抽象

语言模型（LM）的最新进展极大地推动了自然语言处理（NLP）领域的发展，在文本生成、摘要和问答等任务中表现出色。但是，它们的推理仍然计算成本高昂且耗能，尤其是在硬件、功率或带宽有限的环境中。这使得在移动、边缘或成本敏感型环境中部署 LM 变得困难。为了应对这些挑战，最近的方法引入了多 LLM 智能模型选择策略，这些策略根据查询复杂性动态分配计算资源——使用轻量级模型进行更简单的查询，并仅在必要时升级到更大的模型。本调查探讨了高效 LLM 推理的两种互补策略：（i）路由，根据查询选择最合适的模型，以及（ii）级联或分层推理（HI），通过一系列模型升级查询，直到找到可信的响应。这两种方法都旨在通过使用轻量级模型来完成更简单的任务来减少计算，同时仅在需要时卸载。我们提供了这些技术在关键绩效指标上的比较分析，讨论了基准测试工作，并概述了开放的挑战。最后，我们概述了未来的研究方向，以实现更快的响应时间、基于任务复杂性的自适应模型选择以及跨异构环境的可扩展部署，从而使基于 LLM 的系统更加高效和易于用于实际应用。

索引术语：

语言模型、大型语言模型、LLM 路由、级联、推理卸载、资源约束。

第一介绍

大型语言模型（LLM），例如 Bidirectional Encoder Representations from Transformers （BERT）[1]、生成式预训练转换器（GPT）[2]和 DeepSeek[3]，通过在文本生成、问答和摘要等任务中实现最先进的性能，在自然语言处理（NLP）方面具有先进的机器理解能力。然而，大规模部署这些模型会带来重大的计算和财务挑战，特别是对于依赖预先训练的开源模型的中小型组织和学术研究人员。虽然训练 LLM 需要大量资源，但推理成本仍然是一个持续存在的问题，尤其是在需要高精度和响应性时。应对这些挑战需要优化计算效率同时保持性能的策略。

高效的 LLM 推理对于移动和边缘计算场景尤为重要[4].目前，来自移动用户的查询主要由基于云的大型 LLM 处理，包括 GPT、Claude、Gemini 和 Llama。但是，由于依赖昂贵的图形处理单元（GPU）或张量处理单元（TPU）以及 API 调用的潜在费用，基于云的推理会产生大量成本，从而限制了可扩展性和可访问性[5,6,7].另一种方法是利用配备开源小语言模型（SLM）（如 Llama 3.2 7B/11B）的边缘服务器，将推理转移到更靠近用户的位置[8]、Phi-3[9]和 Mixtral 7B[10].虽然这种方法减少了延迟和对云基础设施的依赖，但它通常会损害响应质量[11].路由[12]和分层推理（HI）[13]Techniques 通过根据任务复杂性动态选择适当的模型来解决这种权衡，从而确保效率和性能之间的平衡。这些技术通过利用较小的、经济高效的模型进行初始处理并仅在必要时卸载到较大的模型，从而优先考虑高效的资源分配。这种自适应策略在确保准确性的同时，显著降低了计算开销[14].近年来，这些技术的进步已经证明了它们在优化 LLM 部署方面的潜力，突出了对其能力和未来研究方向进行全面分析的必要性[15].

路由机制根据查询复杂性和模型性能，将查询分配给多个可用模型中最合适的模型。例如，ZOOTER[16]采用基于奖励的指标将查询分配给最合适的模型，从而优化准确性和成本。另一方面，HI 采用级联11在本文中，术语 HI 和 cascading 可以互换使用。结构，其中所有查询首先由轻量级模型处理，并且仅当需要额外处理时，复杂查询才会升级到更强大的模型。例如，EcoAssistant[13]最初使用 GPT-3.5-turbo 等具有成本效益的模型，当较小模型产生的响应不足时升级到 GPT-4。所以原则上，这些技术可以定义如下：

路由：路由系统根据任务复杂性、准确性要求和延迟约束，将查询动态分配给最合适的模型。此方法可确保任务由在成本和性能之间提供最佳平衡的模型处理。

Cascading 或 HI：另一方面，级联框架优先考虑更小、经济高效的模型来完成更简单的任务，并且仅在必要时升级到更大的模型。这种分层推理过程可最大限度地减少资源使用，同时保持输出质量。

这些自适应策略有助于实现可扩展、经济高效的推理，使其有利于实时应用程序、资源受限的环境和高需求的 NLP 系统[17,18].

（一）边缘 LLM 推理中的高效路由

（二）使用 HI 的边缘 LLM 推理

图 1：使用不同的 Routing 和 HI 方法进行高效的 LLM 推理

I-A相关作品

LLM 的高效推理一直是一个突出的研究领域，许多调查研究了各种提高性能、降低成本和增强可扩展性的技术。一些工作通过探索修剪、量化和蒸馏等核心方法，专注于资源高效的 LLM。研究[6,19]强调了这些方法是在保持准确性的同时最大限度地减少计算开销的基础策略。这些技术减小了 LLM 的大小和复杂性，使其更易于在实际场景中进行部署。同样地[5]通过解决设计轻量级架构和加速推理的挑战来扩展此讨论。作者在[20]提供了更广阔的视野，研究了从训练到部署的整个 LLM 生命周期的效率策略。

能源效率是文献中探讨的另一个关键方面。部分作品[21,4]强调了制定具有环保意识的 LLM 部署策略的重要性，并讨论了减少 LLM 推理能源足迹的方法。这些工作强调硬件感知优化、分布式推理技术和可持续的 AI 实践，特别是对于边缘和移动部署。例如，Mobile Edge Intelligence 专注于使 LLM 适应资源有限的环境，例如 IoT 和移动系统，在这些环境中，计算和能源限制非常重要。

在系统层面，像[22]和[23]探索了在实际环境中有效部署 LLM 所需的基础设施和算法。这些工作解决了大规模部署中的可扩展服务框架、负载均衡、延迟优化和可靠性等挑战。LLM 推理服务[22]强调了对端到端系统的需求，这些系统可以在满足性能和成本目标的同时管理高查询量。相比之下，[23]专注于生成任务，分析服务框架与为摘要和文本生成等任务设计的模型的集成。

一些研究，例如[24,25]通过了解 LLM 推理中的效率权衡，专注于 LLM 性能分析。这些工作使用屋顶模型等框架来评估计算性能、识别瓶颈并突出优化机会。这些研究对于了解各种场景中计算成本、延迟和模型性能之间的权衡很有价值。尽管这些调查提供了对压缩、能源效率和基础设施优化的全面见解，但它们缺乏对路由和级联技术的重点探索，而这些技术是在资源受限的环境中进行自适应推理的关键策略。

最近关于 LLM 路由和模型选择的调查奠定了重要的基础，但也留下了我们工作旨在解决的几个关键差距。例如，Chen 等人。[26]提出了集成方法的广泛分类，包括作为 Ensemble-before-inference 策略的子集的路由。然而，他们的重点仍然主要放在架构上，对延迟、能耗和可扩展性等现实世界的约束关注有限，这些都是实际部署中的关键问题。同样，Srivatsa 等人。[15]使用基于策略的聚类方法探索推理任务的路由，但将其评估限制为学术基准，并且不考虑级联或部署感知权衡。作者的扩展调查[27]讨论了 routing 系统的实现细节，但缺乏一个正式的框架来比较成本、性能和模型互作性的方法。此外，Chen 等人最近的工作。[28]研究大型和小型语言模型之间的协作机制，重点介绍它们如何通过协调、蒸馏和任务分区共同为推理任务提供服务。虽然这项工作提供了对协作架构的有用见解，但它没有提供部署约束下的路由和 HI 技术的统一处理。它还缺乏对成本和性能权衡的基准或定量模型的比较分析，而这对于实际适用性至关重要。

与之前强调集成架构或准确性驱动模型选择的调查不同，我们的调查明确关注路由和 HI 作为在实际约束下部署的多 LLM 系统的优化策略。我们通过计算、内存、能源、延迟、财务成本、可扩展性和模式兼容性等角度分析技术，弥合理论方法和实际部署之间的差距。此外，我们通过比较关键基准（MixInstruct、ROUTERBENCH 和 RouterEval）为分散的评估环境带来了连贯性，并强调了在多 LLM 路由中需要统一的性能指标，这是现有文献中基本被忽视的话题。我们的主要贡献有四个方面：（i） 路由和 HI 技术的部署感知分类法，按它们解决的资源限制进行分类;（ii） 对主要路由基准进行比较审查，并引入统一的评估指标，即推理效率评分（IES），以评估成本与性能的权衡;（iii） 将现有方法与边缘推理和移动助手等实际部署场景相结合;（iv） 对新兴研究方向的前瞻性分析，包括多模态路由、自适应推理以及与具有推理能力的 LLM 的集成。总之，这些贡献为设计可扩展、高效和上下文感知的 LLM 路由系统奠定了基础。

这些技术的一个值得注意的例外是专家混合（MoE）[29]方法，DeepSeek 模型最近采用了这种方法[3].MoE 根据输入特征选择性地激活最相关的专家子网络，从而最大限度地减少不必要的计算并提高效率。但是，它与本调查中讨论的布线和级联技术有着根本的不同，因为 MoE 在单个整体模型架构中运行。相比之下，路由和 HI 方法在一组不同的模型中起作用，通常涉及 SLM 和 LLM 的组合。由于本调查的重点是用于优化不同部署环境中推理效率的多 LLM 设置，因此 MoE 不属于这项工作的范围，因此不会进一步详细考虑。

本文的其余部分结构如下。在第二节中，我们提供了本研究的必要背景，包括 LLM、SLM 和所涉及的各种资源限制的概述。第 III 部分介绍了系统模型，并详细讨论了路由和分层推理（HI）技术。第 IV 节讨论了评估方法和绩效指标，然后第 V 节讨论了挑战和潜在的未来方向。最后，我们在第 VI 节中总结了本文。

第二背景

II-A 型LLM 架构和推理过程概述

II-A1 号变形金刚

LLM 主要使用基于 transformer 的架构构建。变压器的介绍[30]彻底改变了 NLP，在包括文本分类在内的各种语言任务中取得了显著的成果[31]机器翻译[32]和问答[33].一个值得注意的例子是 BERT[1]，它通过有效捕获上下文信息为问答任务设定了新的基准。

Transformer 采用自我注意机制来捕获序列中元素之间的复杂依赖关系，并有效地对长期关系进行建模。该架构基于编码器-解码器框架，其中每个组件都由堆叠层组成，这些层结合了多头自注意力机制、前馈网络（FFN）和层归一化。编码器将输入序列处理为丰富的上下文表示形式，而解码器使用这些表示形式以及以前生成的令牌来生成输出序列。给定一个 token 的输入序列，我们将其表示为 embedding 矩阵𝐗∈ℝn×d哪里n表示序列长度，d是每个标记嵌入的维数。在自我注意机制中，该模型使用缩放的点积注意力公式计算注意力分数：

哪里𝐐,𝐊,𝐕∈ℝn×dk分别是 query、key 和 value 矩阵。这些是通过线性投影输入矩阵获得的𝐗使用可训练权重矩阵𝐖Q,𝐖K,𝐖V∈ℝd×dk如下：𝐐=XWQ,𝐊=XWK和𝐕=XWV.产品QK⊤∈ℝn×n通过 dot product 计算标记之间的成对相似性分数。这些分数按dk防止 softmax 函数进入梯度非常小的区域，从而稳定训练。然后，softmax作逐行对这些分数进行归一化，以生成注意力权重，这些权重用于计算𝐕.结果是输入序列的上下文感知表示形式，用于捕获标记之间的依赖关系。多头注意力（MHA）机制通过并行执行多个注意力计算来扩展这一点：

其中每个 head 的计算公式为头我=注意力⁢(𝐐我,𝐊我,𝐕我)和𝐖O∈ℝh⁢dk×d是学习的投影矩阵。

尽管注意力机制已应用于前馈和循环网络[34,35]，transformers 完全依赖于这种专门的 multi-head attention 实现。这种设计实现了高效的并行化，使 transformer 特别适合扩展到高复杂性模型和处理大型数据集。其他方法，例如硬关注[36]本质上是随机的，需要 Monte Carlo 采样来确定注意力位置，这会增加计算开销。

与卷积或递归架构不同[37,38,39]，变压器对问题结构的要求最低。这种灵活性使它们非常适合通过前置任务对大规模未标记数据集进行预训练[30,1].这种预训练能够生成富有表现力和可推广的表示，𝐇，从而有效地捕获数据中实体之间的关系。这些表示为下游任务中的监督微调奠定了坚实的基础，进一步增强了变压器的多功能性和影响。

II-A2 号LLM

变压器的可扩展性一直是 LLM 快速发展的关键驱动力。许多 LLM 都是基于 transformer 架构开发和完善的，领先的 AI 公司正在不同领域积极设计和部署这些模型。例如，OpenAI 的 GPT-3[2]在文本生成和机器翻译等任务中实现卓越的性能，为基于聊天的应用程序设定基准。Google 的 Med-PaLM[40]通过提供专家级诊断和指导来展示医疗领域的专业知识。同样，Facebook 的 DEiT[41]将自我监督学习整合到 Transformer 框架中，以使用有限的注释数据实现最先进的图像分类。这些 LLM 在广泛而多样的数据集上进行训练[42].

LLM 架构大致可分为三种类型：仅编码器、编码器-解码器和仅解码器模型。仅编码器 LLM，例如 ALBERT[43]，完全由编码器组件组成，并利用基于 transformer 的高级架构[30].给定一个输入序列𝐗∈ℝn×d，编码器会生成上下文化的令牌表示形式𝐇=编码器⁢(𝐗)哪里𝐇∈ℝn×d型.这些模型由于其高效的特征提取和多功能表示，在文本分类、句子相似性和语言理解等任务中表现出色。尽管缺少用于生成输出序列的解码器，但仅编码器 LLM 对于分析和理解文本仍然非常有效。

编码器-解码器 LLM，例如 T5[44]中，将编码器和解码器组件组合在一起以执行序列到序列任务。编码器处理输入序列𝐗转换为上下文表示𝐇enc，而解码器将这些表示形式与以前生成的令牌一起使用𝐘<t生成输出序列𝐘={y1,y2,…,yT}.这个过程可以表示为：

哪里t是当前时间步长。编码器-解码器模型在机器翻译、文本摘要和问答等应用中表现出色，在这些应用中，捕获复杂的语言结构和上下文依赖关系是必不可少的。

仅限解码器的 LLM，例如 GPT 系列[2,45]，代表专为生成任务设计的一类突出的语言模型。这些模型利用自回归解码方法，其中 Token 是按顺序生成的，每个 Token 都以先前生成的 Token 为条件。生成序列的概率𝐘={y1,y2,…,yT}建模为：

哪里𝐘<t={y1,y2,…,yt−1}表示当前令牌之前的所有令牌yt.这种自回归公式使模型能够产生连贯且与上下文相关的输出，使其对于语言生成、文本完成和对话响应生成等任务特别有效。通过利用大规模训练数据集和 transformer 架构固有的可扩展性，这三个 LLM 类别共同展示了在各种领域和应用中的卓越多功能性和性能。

多模态 LLM：传统的 LLM，例如 GPT-3 和 BERT[46,1]专为单模态文本数据而设计，限制了它们在涉及多种模态（如图像、音频或传感器数据）的实际场景中的实用性[47,48,49].为了解决这个问题，多模态 LLM 应运而生，将各种数据类型集成到一个统一的框架中。例如，GPT-4[50]可以处理文本和图像，支持图像字幕和辅助语音识别等任务。这些模型利用跨模态融合和交互式学习来处理复杂的输入[51].通过整合在不同模态（如视觉和音频）上训练的基础模型，多模态 LLM 扩展了传统语言模型的功能[52,53].然而，集成这些模型需要有效的跨模态对齐，通常通过多模态预训练和指令调整来实现。

多模态预训练通过在多模态数据集（如 XText）上优化目标来学习不同模态之间的共享表示[54].给定两种模态𝐌1和𝐌2，则模型将构造一个联合表示𝐇:

哪里f對齊是一个神经对齐函数。此对齐过程使用对比损失进行优化：

其中 sim 是相似性函数（例如，余弦相似度），并且τ是温度参数[55].这种一致性加强了多式联运关系，提高了跨模态任务的绩效。

另一方面，Instruction-tuning 通过优化标记的多模态数据来优化针对特定任务目标的预训练模型。对于给定任务𝒯带输入-输出对(𝐌输入,𝐌输出)和N训练示例，该模型将损失降至最低，因为：

哪里𝐌^输出是模型的预测，而ℒ是特定于任务的损失函数，例如交叉熵损失[56].指令调整增强了模型泛化到看不见的指令的能力，从而改进了零样本学习。

II-B 型不同的资源约束

由于 LLM 的大小和复杂性以及部署环境的限制，在设备-边缘-云设置中执行 LLM 推理会带来一些资源限制。从广义上讲，这些限制可以分为一般硬件和作限制，然后是特定于 LLM 的挑战。在一般约束中，计算约束的出现是因为边缘设备通常缺乏强大的处理单元，例如 GPU、TPU 或专用的 AI 加速器，这使得高效执行大型模型变得困难。内存限制进一步加剧了这个问题，因为 LLM 需要大量内存来存储模型权重、中间计算和输入输出数据，这可能会超出资源受限设备的能力。此外，能源限制在移动和 IoT 应用中起着至关重要的作用，在这些应用中，电池供电设备的电源有限，而 LLM 推理会由于密集的计算和内存需求而迅速耗尽电池。此外，延迟约束对于需要快速响应的实时应用程序尤其成问题，因为设备上推理可能会引入计算延迟，而基于云的推理在减轻本地处理负担的同时，会产生额外的传输延迟，这可能会阻碍实时可用性。

除了这些一般限制之外，有效部署 LLM 还存在特定的挑战。由于在边缘设备上部署 GPU 或 TPU 等专用硬件的成本很高，因此会出现财务限制，而基于云的解决方案会给计算时间、存储和数据传输带来经常性成本，使大规模部署成本高昂。另一个关键挑战是可扩展性约束，其中为许多用户提供服务的应用程序（例如大型聊天机器人或推荐系统）必须在受限环境中平衡计算负载、延迟和准确性。最后，模态约束限制了 LLM，因为它们主要依赖于文本输入，并且难以有效地处理多模态数据，例如图像或音频。尽管多模态 LLM 旨在弥合这一差距，但在对齐表示和管理跨模态依赖关系方面的挑战仍然存在，因此需要改进强大的多模态技术。解决这些限制对于优化不同环境中的 LLM 部署至关重要。

II-C 型小型语言模型（SLM）

SLM[57]已成为 LLM 的可行替代方案，在效率和性能之间实现了平衡。Llama 3.2 7B/11B、Phi-3、Mixtral 7B 和 Mistral 7B 等流行的 SLM 已被开发用于提供高质量的语言理解和生成，同时需要的计算资源比大型同类产品少得多[58].SLM 研究背后的动机源于对模型的需求不断增长，这些模型可以在资源受限的设备（如智能手机、边缘服务器和嵌入式系统）上运行，而无需依赖昂贵的基于云的推理。通过利用训练效率、架构优化和知识蒸馏方面的创新，SLM 在常见的 NLP 任务上实现了有竞争力的性能，同时对开发人员和企业来说更易于访问且更具成本效益[58].

尽管具有优势，但 SLM 仍面临明显的局限性。由于 GPT-4、Gemini 1.5 或 Claude 3 等大型模型减少了参数数量，它们经常难以完成需要深度推理、长期记忆保留或高度细致的上下文理解的任务[59].此外，SLM 可能会表现出幻觉、偏见或事实不一致，因为它们的训练数据更加浓缩[60,61].虽然微调、检索增强生成（RAG）和提示工程等技术有助于缓解这些问题[62]，它们不能完全取代 LLM 更广泛的知识和灵活性。尽管如此，对模型压缩、自适应扩展和混合推理策略的持续研究继续增强 SLM 的功能，使其成为成本、延迟和部署限制是主要关注点的实际应用程序的越来越实用的选择[63].

第三使用路由和 HI 技术的 LLM 推理

在本节中，我们首先从以成本为中心的角度介绍系统模型，详细介绍各种部署约束如何影响推理决策。然后，我们回顾了一系列采用路由或 HI 策略在这些约束下实现高效多 LLM 推理的算法。表 I 提供了这些技术的关键特性的总结比较。

III-A 系列系统模型

如前所述，LLM 推理受计算成本、内存、能源成本、延迟、财务可行性、可扩展性和模态兼容性的限制。让ℳ={M1,M2,…,MK}表示一组 LLM，其中M1是资源密集度最低的模型，而MK是最耗费资源的。给定一个输入查询q、路由函数R⁢(q)确定最合适的型号Mk基于学习的函数fR⁢(q,θ):

哪里θ表示学习到的 routing 函数的参数。路由决策必须满足多个约束条件，以优化效率，同时保持准确性。让C⁢(Mk)表示选择Mk，定义为：

每个成本构成的建模方式如下：

•

计算成本：定义为推理所需的 FLOPs：

哪里失败⁢(Mk)是推理所需的浮点运算数，并且βk是计算效率因子。
•

内存成本：定义为模型的内存占用：

哪里内存⁢(Mk)是模型的内存占用Mk和γk是与内存带宽限制相关的权重。
•

能源消耗：定义为每次推理的能耗：

哪里Pk是功耗，而Tk是模型的推理时间Mk和δk是能量缩放系数。
•

延迟成本：定义为推理时间损失：

哪里λk反映特定于应用程序的延迟敏感性，以及Tk是Mk.
•

财务成本：定义为运行推理的货币成本：

哪里μk考虑云 API 成本。
•

可扩展性成本：定义为处理增加的查询负载所产生的开销：

哪里ρk是比例因子，负荷⁢(Mk)表示模型可以处理的请求数。
•

模式费用：定义为模型与所需的输入模态不兼容时的惩罚：

哪里1Mk∉ℳ相容是一个指示函数，如果Mk不支持 input 模态。

HI 框架根据置信度分数应用级联选择sk⁢(q)，其中，仅当模型k的置信度低于阈值τk:

总体目标是在保持准确性的同时最大限度地降低成本：

哪里𝒟是查询分布，ℓ⁢(⋅,⋅)是特定于任务的损失函数（例如，交叉熵），并且M∗⁢(q)是 Query 的 ground-truth 或 ideal model outputq. 该公式集成了多个实际约束，确保 LLM 推理保持计算效率、内存感知、能源效率、财务可行、延迟优化、可扩展和模态兼容。

我们现在转向路由和 HI 策略的实际实现，这些策略在某种程度上旨在实施我们的成本模型中描述的效率权衡。这些方法在实时估计查询复杂性、分配模型和管理资源约束的方式上有所不同。为清楚起见，我们将它们分为两大类：基于路由的技术和 HI 方法，每类都反映了不同的模型选择动态。

III-B 型基于路由的技术

III-B1 号尝试

在[64]，作者提出了一种路由算法 Tryage，通过预测下游模型性能和集成用户定义的约束来为用户提示选择最佳模型。路由器使用受 Q-learning 启发的方法动态分析提示，其中预测模型估计库中每个专家模型的性能。路由决策最小化了损失函数，该损失函数将预测的准确性与加权的用户约束（例如模型大小、新近度和延迟）相结合。为了实现这一点，该算法使用监督式学习来训练路由器以近似特定于模型的损失。训练后，路由器会动态地将提示分配给最合适的模型。

III-B2 号ZOOTER 公司

另一种路由方法，该方法根据 LLM 的专业知识有效地将查询分配给最合适的 LLM，在[16].ZOOTER 算法使用奖励蒸馏，其中现成的奖励模型提供标量奖励来训练路由函数。此函数学习预测特定模型最适合给定查询的可能性。在推理过程中，路由函数直接将查询分配给功能最强大的模型，从而避免了从所有候选模型生成输出的计算开销。此外，基于标签的标签增强功能降低了奖励信号中的噪声，从而提高了路由函数的鲁棒性和准确性。

III-B3 号自由港

在[65].FORC （Fly-Swat 或 Cannon）使用在不同数据集上训练的轻量级元模型，在调用任何模型之前预测给定查询的每个 LLM 的性能和成本。根据预测的性价比权衡，将每个查询分配给单个 LLM，而无需按顺序测试多个 LLM。元模型考虑了多个用户定义的约束，例如推理预算和准确性要求。其设计可确保框架具有通用性，并且不需要对特定数据集进行重新训练。

III-B4 号鲁图酒店

鲁图酒店[66]在具有数千个开源 LLM 的场景中实现高效的查询路由。它使用 LLM 作为 Performance Predictor（性能预测器）来对查询的潜在模型性能进行评分。然后，成本感知选择器可在预算限制内最大限度地提高性能。这种方法通过处理大量模型来扩展早期框架，强调开源上下文中的可扩展性。

III-B5混合LLM

Ding 等人。[67]引入了一种使用 SLM （Llama 2）和更大的 LLM （GPT-3.5 turbo）的混合路由方法。他们使用 BARTscore 训练了一个 BERT 风格的编码器来评估查询质量，并将其定向到适当的模型。这项工作将自适应路由与质量感知策略相结合，通过专注于在降低计算成本的同时保持高质量输出来补充早期研究。

III-B6 号OptLLM

作者[68]将查询路由表述为多目标优化问题，平衡性能和成本。他们训练了随机森林模型，以根据预先收集的响应来预测特定查询的 LLM 准确性。通过对性能和计算成本之间的权衡进行建模，这种方法允许对 LLM 进行精细的查询分配。对预测建模的关注与早期工作中的动态和自适应框架一致，但强调通过稳健优化实现成本-性能权衡。

III-B7MetaLLM 系列

中提出了一个动态框架，旨在优化将查询路由到最适合分类任务的 LLM 的过程[12].在此框架中，最佳 LLM 的选择被视为多臂老虎机（MAB）问题，其中每个 LLM 被视为具有相关性能和成本值的“臂”。MetaLLM 学会了平衡这两个因素，以确定每个查询的最佳 LLM，而无需对所有选项进行详尽搜索。该系统将查询动态路由到可用 LLM 池，包括 OpenAI 的 GPT 等模型[69]、亚马逊的 Titan[70]、Anthropic 的 Claude[71]和 Meta 的 LLaMa[72]，具体取决于其性能和成本特征。与使用单个模型相比，它显著提高了准确性，并将成本降低了 50% 到 70%。MetaLLM 的方法允许有效的零样本分类，优化查询性能，同时最大限度地降低总体成本，这是大规模应用程序的关键考虑因素。

III-B8 号路由LLM

在[73]，Ong 等人介绍了一种新方法，可以根据学习到的偏好在多个 LLM（读取 SLM 和 LLM）之间有效地路由查询，以优化计算成本和性能。作者提出了一个框架，其中路由决策由基于偏好数据训练的模型指导，该模型反映了用户在各种场景中对不同 LLM 生成的输出的偏好。此 preference 数据用于训练路由策略，使系统能够为给定输入动态选择最合适的 LLM。一种出色的方法，即 Similarity-Weighted Ranking，在推理过程中计算查询与已知响应的相似性，而无需训练。此方法支持动态路由决策，仅在 SLM 推理不足时才卸载到 LLM，从而减少整体计算量。本文为偏好感知查询路由奠定了基础，强调将额外的训练开销降至最低。

表 I：路由和分层推理技术总结

技术（Routing/HI）	监管类型	路由/级联策略
尝试 [64]	监督	Q-learning 启发的性能预测
ZOOTER 公司 [16]	监督（通过奖励蒸馏）	使用学习函数的奖励引导路由
自由港 [65]	监督	元模型预测成本与性能的权衡
鲁图酒店 [66]	监督	基于 LLM 的性能预测器，带有成本感知选择器
混合LLM [67]	监督	具有质量评估的 BERT 型编码器（BARTScore）
OptLLM [68]	监督	用于模型准确性和成本的随机森林预测器
MetaLLM 系列 [12]	无监督（Multi-Arm Bandit）	MAB 的奖励平衡成本和性能
路由LLM [73]	监督 / 基于规则（相似度匹配）	基于偏好的策略和相似度加权排名
节俭GPT [14]	基于规则/启发式	使用生成评分 + 阈值进行级联
环保助手 [13]	监督 / 反馈驱动	基于用户反馈和执行检查的升级
缓存和蒸馏 [74]	监督（师生）	使用不确定性指标的基于置信度的升级
自动混合 [75]	无监督 / 基于 POMDP	验证程序 + POMDP 引导式路由
高效的混合解码 [76]	受监督（通过奖励模型）	具有奖励阈值的代币级评分
基于不确定性的选择 [77]	无监督 / 在线学习	具有动态阈值的边际采样

III-C 系列分层推理方法

III-C1 号节俭GPT

第一种称为 FrugalGPT 的分层方法是由 Chen 等人提出的。[14].此方法通过按成本和可靠性排名的 LLM 列表对查询进行排序。从廉价模型开始，只有当早期响应未达到可靠性阈值时，它才会将查询卸载到更昂贵的模型，如 GPT-4。此决策由评估每个模型响应质量的生成评分函数和 LLM 路由器（根据用户定义的预算和准确性约束确定最佳查询顺序）指导。除了级联之外，FrugalGPT 还采用了互补策略，例如及时适应，它减小了输入大小以降低成本，以及 LLM 近似，它使用缓存的响应或微调的较小模型来避免冗余的 API 调用。例如，查询串联同时处理多个查询，从而最大限度地减少提示开销。与仅使用 GPT-4 等高端 LLM 相比，这些技术可以节省高达 98% 的成本，同时实现相当甚至更高的准确性。

III-C2环保助手

在[13]，提出了一种优化成本效益的分层方法。系统从最具成本效益的 LLM（例如 GPT-3.5-turbo）开始解决查询。如果此模型无法解决问题，系统会升级到更强大的模型，例如 GPT-4。查询解决成功与否由两种方法决定：用户反馈和自动检查。模型生成响应后，将收集用户反馈以评估查询是否已成功解决。此外，如果查询涉及代码执行（例如 API 调用），系统会检查代码是否正常运行并产生预期结果。这种分层方法最大限度地减少了昂贵模型的使用，降低了成本，同时仍能确保高性能。解决方案演示技术通过存储成功解析的查询代码对进一步提高了准确性。当出现新查询时，系统会检索并附加相关的过去解决方案，以提高响应质量。这些技术共同使 EcoAssistant 能够有效地解决查询，将 GPT-4 的成功率提高 10%，同时将成本降低 50% 以上。

III-C3 号缓存和蒸馏

缓存和蒸馏[74]使用较小的本地学生模型（SLM），该模型根据更昂贵的教师模型（LLM）的响应进行持续训练。查询首先路由到 SLM，SLM 尝试提供预测。如果 SLM 置信度较低，则查询将升级到 LLM 以准确解决。此 HI 系统采用主动学习技术，如边际采样（顶级预测之间边距最小的查询）和预测熵（具有高输出不确定性的查询）来决定何时查阅 LLM。此外，委员会的查询[78]测量多个学生模型之间的不一致，而 CoreSet 采样优先考虑不同的注释查询。这些方法可确保 SLM 随着时间的推移而改进，同时最大限度地减少对 LLM 的卸载。

III-C4 号自动混合

在[75]，提出了一个 HI 系统，其中 SLM 使用作者设计的验证器提示来评估自己的输出。鉴于此类验证的噪声性质，该系统采用部分可观察马尔可夫决策过程（POMDP）框架来指导路由决策。这种自适应方法可确保在多个 LLM 之间进行稳健选择，从而优化动态语言建模场景中的效率和性能。

III-C5 号高效的混合解码

在[76]，作者介绍了一个混合解码框架，该框架将设备上的 SLM 与更大的基于云的 LLM 相结合。在此设置中，SLM 生成代币，然后由基于反映 SLM 和云 LLM 输出的合成数据训练的奖励模型进行评估。奖励模型根据每个代币与云 LLM 的估计代币分布的预期一致性对每个代币进行评分。如果分数超过阈值，则接受令牌;否则，将卸载任务，并查询云 LLM 以生成下一个令牌。

III-C6 号基于不确定性的两级选择

在使用 LLM 时优化资源使用的另一种分层框架在[77].SLM 处理初始预测，而卸载到更大的 LLM 的决定是基于边际抽样做出的。边际抽样通过测量前两个代币预测之间的概率差异来捕获 SLM 预测的不确定性。该方法使用通过在线学习更新的动态阈值来决定是否需要卸载。与其他框架不同，这种方法不需要辅助模型进行决策。

四评估和指标

如第 III 节所述，路由和 HI 策略的有效性不仅取决于模型的准确性，还取决于系统级的权衡，例如延迟、能源使用和成本。这些约束会影响模型选择决策。在本节中，我们回顾了试图量化这些权衡的现有评估方法和基准。然而，目前的评估工作仍然分散，很少有基准能捕捉到在现实世界约束下多 LLM 推理的全部复杂性。

IV-A 型路由和 HI 方法的定性评估

表 II：解决各种约束的技术比较

技术	计算	记忆	能源	延迟	财力	可扩展性	形态
尝试[64]	✓	✗	✗	✓	✓	✗	✗
ZOOTER 公司[16]	✓	✓	✗	✓	✓	✓	✗
自由港[65]	✓	✓	✓	✓	✓	✗	✗
鲁图酒店[66]	✓	✓	✗	✓	✓	✓	✗
混合LLM[67]	✓	✓	✓	✓	✓	✗	✗
OptLLM[68]	✓	✓	✗	✓	✓	✓	✗
MetaLLM 系列[12]	✓	✗	✗	✓	✓	✓	✗
路由LLM[73]	✓	✗	✓	✓	✓	✓	✗
节俭GPT[14]	✓	✓	✓	✓	✓	✓	✗
环保助手[13]	✓	✓	✓	✓	✓	✗	✗
缓存和蒸馏[74]	✓	✓	✓	✓	✓	✗	✗
自动混合[75]	✓	✓	✓	✓	✓	✗	✗
高效的混合解码[76]	✓	✓	✓	✓	✓	✗	✗
基于不确定性的选择[77]	✓	✓	✓	✓	✓	✗	✗

表 III：路由和 HI 技术的优缺点

技术	优势	弊
尝试	低延迟应用程序的快速路由;减少计算负载	无需内存或能源优化;可扩展性有限
ZOOTER 公司	对计算、内存、延迟和可扩展性的强大支持;基于奖励的路由	不解决能量或模态限制
自由港	广泛的约束覆盖范围，包括能源;对边缘环境有效	可扩展性有限;实施复杂度高
鲁图酒店	延迟和经济高效的路由;可扩展至多个 LLM	无需考虑能量或方式
混合LLM	在计算、内存和能源方面高效;适用于成本感知系统	缺少可伸缩性支持;模态受限
OptLLM	很好地平衡了延迟和可扩展性;经济高效的部署	无能源优化;有限的内存策略
MetaLLM 系列	以成本为中心的路由;可扩展的架构	不支持内存或能源限制
路由LLM	涵盖计算、延迟、能源和可扩展性;边缘感知	不优化内存;未解决的模式
节俭GPT	约束覆盖范围广;强大的财务和能源效率	可能涉及复杂的管道调整;无模式支持
环保助手	良好的延迟和能效;使用动态路由	不支持可扩展性或模式
缓存和蒸馏	缓存可以提高速度和节能;内存高效	静态设计不适合可扩展部署
自动混合	在内存、延迟和能量方面有效;适合移动使用	不可扩展;有限的模型多样性
高效的混合解码	在计算、内存、能源、延迟之间实现平衡	不可扩展;模式和适应性限制
基于不确定性的选择	动态模型选择可改善能源和成本利用率	不可扩展或模式感知;内存处理受到限制

路由和 HI 技术的核心优势在于，通过根据任务复杂性动态地将查询分配给模型，从而减少计算开销和延迟。采用路由策略的系统通常利用置信度评分、强化学习或基于性能的启发式等机制，将简单查询推迟到轻量级模型，同时仅在必要时升级更复杂的模型。ZOOTER 和 Routoo 等技术通过提供低延迟响应而不会显着降低准确性来举例说明这种方法。相反，FORC 和 FrugalGPT 等 HI 技术专注于通过选择性卸载来最大限度地降低经济成本，通常避免使用 GPT-4 等昂贵的模型。这些功能使路由和 HI 框架特别适用于延迟和成本敏感型部署，例如移动助手和基于边缘的推理系统[4,79,28].表 II 提供了每种方法如何解决特定资源限制的比较概述，表 III 总结了它们的主要优势和权衡。

然而，对记忆和能量限制的关注在文献中仍然参差不齐。FORC、HybridLLM 和 FrugalGPT 等 HI 系统集成了显式机制来减少能源使用，例如提前退出和运行时修剪。相比之下，其他几种技术优先考虑计算时效率，而在很大程度上忽略了能源配置——这一疏忽对电池受限的部署产生了影响。内存处理同样不一致。例如，ZOOTER 通过选择性加载模型来减少内存使用量，而 Tryage 和 MetaLLM 则依赖于静态管道，从而限制了它们对低内存环境的适应性。这些问题对于设备端推理尤其重要，因为在设备上，内存和功耗都受到严格限制[80].

可扩展性和模态感知可以说是探索最少的维度。OptLLM 和 RouteLLM 等技术引入了多用户可扩展性或分布式推理功能，但大多数框架都是为单查询或批处理样式使用而设计的。这限制了它们在高吞吐量环境中的适用性，例如大规模聊天机器人或多租户 API。模态支持更加有限;所有经过审查的方法都不是为跨多模态 LLM 进行路由而设计的。随着现实世界的应用程序越来越需要能够理解和生成跨模态（文本、视觉和语音）的模型，这仍然是一个关键的差距。路由和 HI 的未来工作应侧重于消除这些限制，不仅实现快速且经济高效的推理，还实现可扩展和模态感知的系统，以稳健地适应实际使用需求。

IV-B 型Multi-LLM 推理系统的基准测试

尽管路由和 HI 技术的采用越来越多，但标准化基准仍然稀缺，当前的工具通常侧重于狭窄的任务类型或静态评估条件。在本节中，我们简要讨论了这些基准，用于评估多 LLM 系统中的路由和 HI 技术，表 IV 中介绍了这些基准的比较分析。

MixInstruct，由江 et al. 引入。[81]，是一个基准测试，旨在评估广泛的 instruction-following tasks 的路由策略。它包括 11 个流行的开源 LLM 和一组不同的提示，这些提示的复杂程度、领域和意图各不相同。这种多样性允许测试路由系统是否能够正确地将任务与适当的模型匹配 - 使用轻量级模型来简化提示，并在需要时升级。

路由器工作台 [18]提供了一个大规模的标准化框架，用于在实际约束下评估路由策略。它从延迟、准确性、成本和响应质量等维度衡量模型选择性能。通过模拟路由场景并使用加权评分函数，它支持精细比较和策略优化。使用 ROUTERBENCH 的研究表明，LLM 路由可以显著降低生产规模 LLM 应用程序中的 API 成本和延迟。例如，IBM Research 报告称，与单独使用 GPT-4 相比，他们的路由方法为每个查询节省了 5 美分[82].此外，混合路由系统的实验表明，在保持 GPT-4 大约 90% 性能的同时，成本降低了 75%[83].

RouterEval [17]是一个轻量级评估框架，可为每个查询提供真实模型分配。这种设置允许精确测量布线精度，即所选模型在成本和性能之间提供最佳权衡的频率。RouterEval 特别适合于在多 LLM 设置中验证学习的路由函数和启发式策略。

表 IV：LLM 路由基准测试的比较

特征↓	混合指令[81]	路由器长凳[18]	RouterEval[17]
重点	指令遵循任务	路由系统的系统评估	模型级扩展和路由决策质量
数据集大小	11 个模型，多样化的提示	405k+ 推理结果	200M+ 性能记录
评估指标	BARTS核心	延迟、准确性、成本、响应质量	真值模型分配
路由强调	按查询选择模型	各种约束下的路由	基于正确性和效率的最优模型选择
优势	用于指令遵循的多样化任务	路由评估的标准化框架	用于路由决策质量的精确测试台

IV-C 型多 LLM 推理需要统一的评估指标

根据我们的分析，现有的评估工作主要依赖于一组孤立的性能指标，例如准确性、延迟或货币成本。虽然这些指标是单独相关的，但它们并不能完全捕捉到路由和 HI 策略的实际部署的系统性权衡，尤其是在考虑受限计算环境时。如第 III 节所述，LLM 选择由复合成本模型控制，该模型考虑了计算、能源、延迟、内存、财务、可扩展性和模态约束。但是，本节中讨论的当前基准尚未提供这些约束在推理过程中如何交互或决策策略在多个目标下如何执行的集成视图。

为了解决这一限制，我们认为需要一个统一的指标，该指标不仅反映了所选模型的准确性，还量化了推理过程的成本效益和响应能力。受到边缘计算环境中系统级指标的启发[84]，我们提出了一种基于效用驱动公式的评估方法。具体来说，我们定义了一个多 LLM 推理效率分数 （IES），它封装了模型质量和响应能力，由成本函数标准化C⁢(Mk)前面定义：

哪里Q⁢(q)表示特定于任务的质量分数（例如，准确性、BLEU、ROUGE），R⁢(q)表示响应性度量（例如，第一个令牌的时间、升级深度或总推理时间），以及α∈[0,1]是一种可调权重，用于控制质量和响应能力之间的权衡。

该公式自然地与第 III 节中介绍的系统成本模型集成，并且可以适用于路由和 HI 策略。对于路由技术，可以按查询计算 IES，以衡量单次模型选择的有效性。对于 HI 系统，可以考虑 IES 的累积版本，将升级期间遍历的模型序列的分数汇总起来。

采用 IES 等统一指标将使未来的基准测试超越逐点准确率和延迟测量，从而在模型选择策略之间实现更公平、更全面的比较。此外，这些指标将有助于研究自适应策略，这些策略根据实时约束和应用程序级目标动态地确定速度、成本或质量的优先级。

重要的是，随着边缘 LLM 推理管道的部署越来越多，统一评估指标的相关性变得更加明显[85,86].在这种情况下，传统的以云为中心的指标（通常围绕吞吐量或基于令牌的定价进行优化）无法捕捉资源异构性和平台特定效率的影响。IES 通过根据系统成本明确规范化效用，提供了一种在计算和能源配置受限的环境中评估模型选择策略的原则性方法，支持在移动、嵌入式和本地系统中部署中小型 LM 的新兴趋势[79].

V挑战和未来方向

虽然本文的目标是强调多 LLM 推理系统的巨大前景，但在这些技术能够可靠地大规模部署之前，仍然存在几个未解决的挑战。除了经过充分研究的成本效益权衡之外，现实世界的场景还引入了复杂的维度，例如基础设施异质性、不断发展的输入模式、隐私约束以及不确定性下对自适应行为的需求。在本节中，我们讨论了基于近期文献的关键和新出现的挑战，从多模式集成和分布式协调到评估框架和隐私感知路由。本讨论旨在明确强调当前的局限性，但也指出构建具有更高稳健性和可扩展性的 LLM 推理框架所需的关键研究方向。

V-A多模态集成

一个关键的开放挑战是将 LLM 路由系统扩展到文本之外，以处理图像、音频和其他模式。现代 LLM 主要以文本为中心，在单个管道中有效地融合多种输入类型仍然非同小可热[87].当前的多模态 LLM 架构通常将单独的模态特定编码器（例如，视觉模型与语言模型一起）固定在一起，这会导致额外的延迟和复杂性[88].这使得实时多模态推理变得困难，因为视觉或音频令牌会减慢整体响应速度[88]. 本调查中回顾的大多数路由和 HI 技术都是专为文本输入而设计的。但是，新兴的 LLM 使用案例（例如视觉问答或音频字幕助手）需要处理多种模式。当前方法（如 RouteLLM）[73]或 ZOOTER[16]不要在其路由逻辑中考虑 query modality。当查询包含图像-文本对或语音命令时，这会产生差距，其中模型的选择必须取决于输入类型和模型的多模态功能。为了更好地理解多模式路由中的挑战，必须同时考虑（i）查询的结构（单模式与复合模式）和（ii）模型池的功能（模式覆盖率、性能概况）。这些维度引入了一个重要的匹配问题，而纯文本路由函数无法捕获该问题。

此外，多模态输入的自适应路由在很大程度上尚未得到探索。如果没有复杂的策略，决定给定查询类型应该引导哪个模型（视觉与语言）是具有挑战性的。多模态 LLM 路由的标准化评估基准仍在不断涌现，这在某种程度上推迟了方法的严格比较[89].总之，将文本与其他数据类型无缝组合需要新的融合技术和协调策略。未来的研究应侧重于高效的多模态融合机制（例如，共享潜在空间或跨模态适配器），并开发基准来捕获涉及混合模态的任务的端到端性能[89].解决这些问题对于启用 LLM 级联至关重要，例如，LLM 级联可以解释用户的问题，同时还可以同时分析图像或音频剪辑。

最后， routing logic 必须同时考虑 input 复杂性和 input 类型。例如，如果轻量级纯文本模型在任务上得分很高，但无法处理嵌入的图像，则路由器必须回退到支持 GPT-4V 的多模态 LLM。然而，当前很少有框架在其路由目标中实施这种模式兼容性检查。正如第三节中正式阐述的那样，这种不匹配可以通过模态惩罚项C形态⁢(Mk)，表示当所选模型缺少对给定查询的必要模态支持时产生的成本。此外，实时多模态推理通常会导致多个系统维度的成本增加[90]：视觉或音频输入通常会增加延迟（C延迟⁢(Mk)）、内存占用（C记忆⁢(Mk)）和能耗（C能源⁢(Mk)).尽管如此，此类成本很少被整合到路由目标中或用于指导决策。即使多模态模型可用，基于跨模态复杂性的路由在很大程度上仍未得到探索。与文本复杂性不同，在文本复杂性中，困惑度、序列长度或句法结构等代理可以为模型选择提供信息[91]，跨模态查询通常需要对异构输入进行推理（例如，将视觉上下文与文本字幕或音频提示对齐）[92].设计如此复杂的轻量级预测器，能够估计融合努力或模态桥接难度，仍然是路由感知多模态推理的一个有前途的方向[48,18].

V-B可扩展性和分布式推理

随着多 LLM 推理系统从原型环境过渡到大规模部署，可扩展性是一个基本问题。这包括基础设施级可扩展性（例如，每秒路由数千个查询）和跨异构环境（包括边缘和云层）的部署可扩展性。一个主要挑战是跨多个服务器或设备编排分布式推理。跨机器拆分大型模型（通过模型或张量并行）会带来沉重的通信开销——节点之间的频繁同步（例如，all-reduce作）会大大降低吞吐量[93].例如，跨设备协调部分结果通常会成为带宽瓶颈[93]. 虽然多 LLM 路由和 HI 在查询时节省了计算成本，但它们在现实世界中的可扩展性仍然受到两个关键因素的限制：（i） 模型选择开销，以及（ii） 动态负载下的系统协调。在大型部署中，例如客户服务平台或内容审核管道，路由决策必须在几毫秒内做出，并且每秒扩展数百个请求。尽管如此，大多数现有的技术，例如 Tryage[64]或 MetaLLM[12]，假设静态资源可用性，并且不将系统级反馈（例如，当前 GPU 负载或网络延迟）合并到 routing logic中。越来越多的工作已经开始探索反馈感知路由，其中基础设施级信号指导推理决策。当前的路由函数通常优先考虑模型准确性或查询复杂性，但经常忽略来自系统环境的动态反馈。例如，路由策略中很少考虑队列长度、当前 GPU 负载或网络延迟等信号。但是，最近在系统级调度器方面的工作[23,18]表明集成此类反馈可以显著提高响应能力和资源利用率。在集群中高效调度请求同样重要，因为简单的作业分配策略可能会导致 GPU 利用率不足或排队延迟过长。智能集群级路由（例如基于强化学习的工作负载调度器）已被证明可以通过根据实时资源状态动态批处理和放置查询来减少延迟[94].

可扩展性的另一个维度是边缘云集成。路由框架越来越多地考虑是否可以使用较小的边缘模型来回答查询，而不是推迟使用强大的云 LLM。但是，在边缘设备上部署 LLM 会受到硬件限制（计算、内存、能源）的限制。只有较小的模型才能适应设备，与云规模的模型相比，这会导致性能差距[95].例如，移动助手可能会在本地响应一般查询以提高速度，但会将复杂请求（例如，代码生成或多跳推理）升级到基于云的 LLM。这导致在本地推理速度和大型远程模型的更丰富功能之间进行权衡。未来的系统必须动态平衡这种权衡，例如，快速预测查询对于边缘模型来说是否足够简单，或者是否需要升级到云。研究还应探索弹性扩展策略，这些策略可以按需启动其他模型实例并在它们之间实时进行负载均衡。

像 FrugalGPT 这样的 HI 方法[14]和 EcoAssistant[13]依赖于按顺序升级到更大的模型，这可能会在大规模上引入延迟瓶颈。例如，将一批低置信度查询升级到 GPT-4 可能会迅速使云资源饱和。并行感知变体或批处理级提前退出可以减少繁重工作负载下的延迟，但这仍然是一个未被充分探索的领域。

表 V：Multi-LLM 推理系统中的未解决问题摘要

挑战区	未解决的问题
集成多模态	• 路由器在选择过程中如何评估输入模态结构（例如文本、图像文本、音频）和模型功能（模态支持）？• 是否可以在不重新训练多模态模型的情况下有效地学习模态感知评分函数？• 在分层管道中，早期模态融合（例如嵌入级）和晚期融合（模型级）之间的权衡是什么？
可扩展性和分布式推理	• 路由决策如何在不引入过多开销的情况下纳入运行时系统指标？• 强化学习或调度理论能否帮助设计跨云和边缘的可扩展、自适应推理管道？• 是否有用于大规模路由的最佳批处理或缓存策略？
评估和调试	• 哪些指标最能捕捉到路由/HI 策略在不断变化的查询负载下的适应性和稳健性？• 评估管道如何模拟真实的系统动态，包括延迟峰值、模型停机时间或使用漂移？• 交互式调试工具能否帮助开发人员在部署后审核和微调路由决策？
自适应路由策略	• 路由器能否学习跨工作负载和任务通用的最佳模型选择策略？• 如何在不中断推理管道的情况下整合在线学习和反馈信号？• 成本感知或效用驱动的学习在路由优化中可以发挥什么作用？• 路由函数如何在推理之前准确预测推理复杂性和工具依赖关系？• 成本模型应该如何发展以反映推理的真实计算和交互开销？
隐私和安全注意事项	• 隐私约束可以与路由决策一起学习吗？• 如何在推理时有效地估计查询的敏感度？• 边缘的隐私感知推理可以保证哪些内容？

V-C评估和调试

随着多 LLM 管道的复杂性不断增加，强大的评估和调试方法对于确保可靠性至关重要。一个核心问题是缺乏标准化的指标和基准来评估路由系统的整体性能。大多数现有的 LLM 评估都孤立地针对单模型精度或延迟，这并不能捕捉级联系统的综合效率和质量。缺乏 LLM 路由的通用基准被认为是进步的障碍[18].令人鼓舞的是，最近的努力，如 RouterBench[18]已经开始通过为多 LLM 路由比较提供系统的评估框架和大规模数据集来填补这一空白。研究人员主张在路由策略的测试方式上更加标准化，呼吁建立社区基准和一致的指标[96].对于 FrugalGPT 等自适应系统[14]或缓存和蒸馏[74]，其中涉及多个模型和决策阶段，端到端指标（如卸载率、升级深度、决策稳定性、类似查询之间的路由一致性和成本标准化质量）至关重要。仍然缺乏模拟真实条件（例如，突发流量、网络争用或工作负载转移）的更全面的评估框架。

除了聚合指标之外，可解释的评估也是一项公开的挑战。传统指标（吞吐量、准确性）可能无法完全反映路由器是否做出了正确的决策。需要新的指标来衡量系统范围的效率、适应性，甚至路由决策的公平性[96].例如，公平性感知指标可以跟踪某些查询类型是否不成比例地升级，而路由一致性可以衡量输入的微小变化是否会导致不稳定的决策。

一个被忽视的挑战是调试决策函数本身。当路由器选择错误的模型时，通常不清楚问题是源于不良的输入特征、不准确的评分还是过时的置信度阈值。可解释的 AI （XAI）技术可以适应公开内部路由逻辑，例如，通过突出显示哪些输入特征（如令牌类型、查询长度或复杂性分数）影响了向模型 A 发送查询与模型 B 的决策，并指导重新训练或阈值调整[53].这激发了将此类技术应用于 LLM 路由器的兴趣，以使其决策逻辑更具可解释性[97].更高的可解释性将有助于开发人员识别路由策略中的偏差或故障模式（例如，始终错误路由某些查询类型）。例如，了解哪些信号触发了回退到更大的模型，可以揭示触发逻辑是否过于敏感或校准错误。在未来的研究中，开发自动调试工具（例如突出显示异常路由模式的日志分析器）或跟踪模型选择逻辑的可视化方法将非常重要。需要整体评估套件来推动该领域向前发展[97,96].

V-D 型自适应路由策略

如今，大多数多 LLM 推理系统都使用相对静态的路由策略或简单的启发式方法（例如，总是先尝试一个便宜的模型，然后在需要时升级）。一个主要的研究方向是使路由自适应，即能够根据每个查询智能地调整模型选择并随着时间的推移而改进。一个挑战是，许多现有解决方案优化了固定的成本-精度权衡，并且不容易定制。例如，一些级联始终旨在最大限度地降低计算成本，这可能会损害准确性，并且它们的路由标准是针对特定场景手动调整的。研究观察到，当前的 LLM 级联主要侧重于降低成本，任何准确性的提高通常来自不可推广的调整或要求所有候选模型为每个查询运行（集成式）[98].这种静态的方法错过了优化其他目标或从经验中学习的机会。新兴的工作是将模型选择视为一个学习问题：例如，使用强化学习或老虎机算法来学习最佳路由策略。最近一个名为 PickLLM 的框架通过训练一个路由器来演示这一想法，该路由器权衡查询特定因素（如预期准确性、延迟和 API 成本），并动态决定为每个查询使用哪个模型[98].随着时间的推移，这样的路由器可以适应使用模式，只有在绝对必要时才使用更大的模型。早期结果表明，RL 辅助路由可以在不牺牲准确性的情况下显著提高效率指标（例如降低每个查询的成本和延迟）[98].自适应性的另一个方面是处理非平稳条件：随着用户查询的发展（主题或难度），或者随着新模型的出现，路由策略应该自我更新。路由器的在线学习在很大程度上尚未探索，但将使系统能够在生产中自我调整。多 LLM 推理的未来可能会涉及自我优化的路由器，这些路由器不断平衡多个目标（准确性、延迟、成本等）并根据上下文做出个性化决策。开发可以与推理一起运行的轻量级学习算法（没有大量开销）是一个开放的研究问题。总之，使路由策略更加动态和学习驱动是提高整体系统性能和适应性的一个有前途的方向。

具有推理能力的模型的路由

未来研究的另一个有前途的方向是扩展路由和 HI 框架，以支持包含工具使用和动态函数调用的高级推理模型。与标准 LLM 不同，具有推理能力的模型（例如 OpenAI 的 o3/o4 系统中使用的模型）以更精细的粒度运行，执行逐个令牌推理，并与工具调用或函数执行等运行时决策交错执行。这些功能引入了一个新的复杂性层：推理成为程序化和有条件的，而不是单通道生成过程。

在这种情况下，路由成为一项更微妙的任务。路由函数现在必须考虑推理深度和工具依赖性，而不是仅仅依赖于输入复杂性或模态。例如，简单的事实查询可能由小型模型有效处理，而触发外部工具调用的查询（例如，计算器、数据库或 API 查找）应路由到配备程序推理的模型。这需要路由函数，这些函数不仅可以预测任务的难度，还可以预测推理过程的结构要求，包括工具使用的可能性和类型。

此外，必须调整路由系统中采用的传统成本模型。除了 FLOP、内存和延迟等标准指标之外，我们现在还需要考虑推理复杂性，这可能包括中间步骤的数量、调用的工具类型以及执行过程中所需的分支逻辑。这表明计算成本可以更精细地分解为令牌级推理和工具级交互开销。这种分解对于延迟敏感或预算受限的部署尤其重要，因为在这些部署中，推理行为会严重影响响应时间和成本。它支持更智能地编排通用和专用模型，从而平衡性能与资源效率。开发能够预测推理需求和工具使用的自适应路由策略将是迈向下一代高效、模块化 LLM 系统的关键一步。

V-E隐私和安全注意事项

在多 LLM 部署中，尤其是跨云层和边缘层的部署中，用户数据隐私和系统安全性变得越来越重要。除非明确建模隐私约束，否则将查询路由到外部模型（例如第三方 API）可能会无意中暴露个人身份信息（PII）。虽然许多现有的级联都针对性能和成本进行了优化[95]，他们经常忽略隐私作为路由目标。在实践中，医疗保健、金融或个人援助中的应用程序可能要求包含敏感数据的查询仅由本地或安全模型处理，即使以降低准确性为代价。

隐私感知路由带来了多重挑战。首先，系统必须检测或注释每个查询的隐私敏感性，例如，通过客户端分类器[99]或元数据标记。其次，路由器必须遵守数据位置策略：例如，确保标记为包含 PII 的查询永远不会卸载到云中。第三，系统可以利用保护隐私的推理机制，例如可信执行环境（TEE）[100]、同态加密[101]或匿名化管道[102]，但这些技术会带来额外的复杂性和延迟，这必须反映在路由目标中。

此外，隐私约束必须与不断发展的法律框架（例如 GDPR[103]），这些法规对可审计性、同意和数据最小化提出了要求。实施此类约束可能需要可路由的隐私策略或合规性感知评分功能，以指导路由决策以及成本和性能指标。

一个有前途的研究方向是开发平衡实用性和机密性的隐私保护路由算法，例如，通过训练共同考虑模型性能和数据敏感性的评分函数，或通过结合实时隐私预算。联合和分散式训练设置[104]可以通过避免集中数据存储来进一步降低隐私风险。

总之，将隐私和安全作为第一类约束集成到多 LLM 推理系统中对于在敏感领域部署这些技术至关重要。未来的系统应旨在支持与实际使用模式和法律要求兼容的可解释、可强制执行的隐私感知路由[105].

上面讨论的挑战表明，设计多 LLM 推理系统意味着满足多个维度的多种要求，包括模态集成、分布式协调、系统评估和数据隐私。为了巩固这些方向，表 V 总结了一组紧迫的开放性研究问题，这些问题按其相应的技术领域分类。虽然并非详尽无遗，但本概述旨在指导未来的调查，并强调问题空间固有的跨学科性质。

六结论

本调查对路由和 HI 技术进行了全面分析，旨在优化实际约束下的 LLM 推理。这些技术表明，路由和 HI 框架可以在不显著影响性能的情况下大幅减少资源消耗，使其非常适合预算感知、延迟敏感和以边缘为中心的部署。通过系统评估关键维度（包括计算、内存、能源、延迟、成本、可扩展性和模式）的最新方法，我们确定了影响该领域当前状态的优势和局限性。

然而，尽管路由和 HI 取得了收益，但它们在边缘计算/智能系统中的使用仍处于起步阶段。在大多数现有系统中，模式支持、大规模可扩展性和能源意识等关键方面要么不成熟，要么完全缺失。此外，虽然许多方法在优化特定约束方面表现出色，但很少有方法提供可以适应边缘部署设置的平衡、通用的解决方案。这表明迫切需要更全面的框架，将资源感知与多模式和分布式应用程序不断增长的需求集成在一起。

展望未来，高效 LLM 推理的未来在于将路由的适应性与模型优化策略的架构独创性相结合。随着新的 LLM 不断涌现，具有不同的功能和成本概况，动态、上下文敏感的推理管道将变得越来越重要。我们希望这项调查既可以作为参考点，也可以作为行动号召——突出未来研究的有希望的方向，同时鼓励更广泛地转向更智能、更可持续的模型部署实践。

查看全文

http://www.xdnf.cn/news/13516.html