论文略读:MLPs Learn In-Context on Regression and Classification Tasks
ICLR 2025 36688
In-context learning(ICL),即仅凭输入示例即可解决任务的能力,通常被视为 Transformer 模型的独特优势。然而,本文通过分析常用的合成 ICL 任务,发现多层感知机(MLPs)也具备学习 in-context 能力。
更进一步地,在相同计算预算下,MLPs 及其相关架构 MLP-Mixer 在 ICL 表现上可与 Transformers 相媲美。不仅如此,在一系列来自心理学的经典任务中(这些任务专为测试关系推理能力而设计,且与 in-context 分类密切相关),MLPs 的表现甚至优于 Transformers。
这一发现带来了两个重要启示:
-
ICL 不应仅限于注意力机制架构的研究范围;
-
挑战了此前认为 MLP 难以胜任关系推理任务的观点。
总的来看,这些结果揭示了 MLPs 在合成 ICL 场景中出人意料的表现,为当前日益增长的 “all-MLP 替代 Transformer” 研究方向提供了有力支持。
尽管如此,目前仍不清楚 MLP 在大规模、真实世界任务中相较于 Transformer 的具体表现如何,以及两者之间潜在性能差距的来源。因此,作者呼吁进一步研究 MLP 架构在更复杂场景下的能力,以全面理解注意力机制相较于其他神经网络结构的真正优势所在。