论文阅读:arxiv 2025 A Survey on Data Contamination for Large Language Models
总目录 大大模型数据污染相关研究:https://blog.csdn.net/WhiffeYF/article/details/142256907
A Survey on Data Contamination for Large Language Models
https://arxiv.org/pdf/2502.14425
https://www.doubao.com/chat/12318530601911042
文章目录
- 论文速览
- 论文翻译
- 大型语言模型的数据污染研究综述
- 摘要
- 1 引言
论文速览
这篇文档主要讲的是大型语言模型(比如ChatGPT这类模型)的数据污染问题
现在的大型语言模型越来越厉害,能写文章、编代码、做数学题,但有个麻烦事儿——数据污染。简单说就是,模型训练时用的 data(比如从网上爬的内容)里,不小心混入了本该用来测试模型的题目或答案。这样一来,模型在考试(测试)时看似表现很好,其实可能是提前背过答案,并不是真的学会了,这会让我们误判模型的真实能力。
文档分几部分讲了这个问题:
-
什么是数据污染:不只是训练数据和测试数据重复这么简单。从模型生命周期来看,可能在训练初期、调优阶段甚至投入使用后都可能出现污染;从测试基准来看,可能是文本重复、带答案的文本重复、改头换面的重复,或是整个测试集相关内容被混入训练数据。而且数据污染有几个特点,比如模型越大越容易受影响,不同任务、不同语言受污染的情况也不一样。
-
怎么避免数据污染:为了让测试结果靠谱,研究人员想了些办法。比如定期更新测试数据、把旧数据改写成新说法、提前做好防护(像加密测试数据);还有动态生成测试题,让模型猜不到;甚至让模型自己当考官出题评分,减少提前接触答案的可能。
-
怎么检测数据污染:分三种方法。一是“白盒检测”,得知道模型的内部结构或训练数据,看测试题是不是跟训练数据有重合;二是“灰盒检测”,不用全知道内部情况,看模型对某些内容的反应概率来判断;三是“黑盒检测”,完全不知道模型内部,就通过模型的输出猜,比如给模型一个不完整的句子,看它是不是能准确补全,以此判断是不是背过原文。
最后还提到,未来需要解决的问题包括:怎么让模型“忘记”污染的数据、让检测方法更靠谱,以及分清模型是真学会了还是靠记忆答题。总之,就是想让大型语言模型的能力评估更真实可信。
论文翻译
大型语言模型的数据污染研究综述
摘要
近年来,大型语言模型(LLMs)的进展在文本生成、代码合成等多个领域展现出显著进步。然而,由于数据污染(即训练数据集与测试数据集之间的非预期重叠),性能评估的可靠性受到了质疑。这种重叠可能会人为地抬高模型性能,因为大型语言模型通常是在从公开来源抓取的海量数据集上训练的。这些数据集往往会无意中与用于评估的基准数据集重叠,导致对模型真实泛化能力的高估。在本文中,我们首先探讨了数据污染的定义和影响。其次,我们综述了无污染评估的方法,重点关注三种策略:基于数据更新的方法、基于数据重写的方法和基于预防的方法。具体而言,我们强调了动态基准和基于大型语言模型的评估方法。最后,我们根据对模型信息的依赖程度,将污染检测方法分为:白盒检测法、灰盒检测法和黑盒检测法。我们的综述强调了对更严格评估协议的需求,并提出了应对数据污染挑战的未来方向。
1 引言
近年来,大型语言模型(LLMs)的突破性进展在文本生成、代码合成和数学推理等方面展现出卓越的能力(Zhao 等人,2023;OpenAI 等人,2024;DeepSeek-AI 等人,2025)。然而,由于数据污染(即训练数据集与测试数据集之间的非预期重叠),大型语言模型评估的可靠性日益受到质疑(Balloccu 等人,2024;Chang 等人,2024)。这一问题尤为突出,因为大型语言模型所使用的大规模网络抓取数据集很容易与测试基准重叠。(Xu 等人,2024b)在数学推理场景下对 31 个大型语言模型进行了分析,发现了普遍存在的数据污染现象。众所周知,大型语言模型会记忆部分训练数据,在特定提示下,它们能够逐字复现这些数据(Carlini 等人,2022)。正如(Sainz 等人,2023)所强调的,数据污染的一个关键后果是,依赖受污染大型语言模型的科学研究可能会得出错误的结论,甚至可能使有效的假设失效。为了强调在大型语言模型的开发和评估中解决数据污染问题的重要性,我们对数据污染进行了全面的综述。
在第 2 节中,我们将数据污染定义为在预训练阶段纳入测试集数据,从而人为地提高模型性能。最近的研究从两个维度扩展了这一定义:大型语言模型生命周期中基于阶段的污染和大型语言模型评估中基于基准的污染。对于基于阶段的分析,污染机制包括预训练阶段的信息泄露、微调偏差、跨模态泄露(Yao 等人,2024)以及间接的人类交互(Palavalli 等人,2024)。同时,我们将基于基准的污染分为四类:文本污染、文本 - 标签污染、基于增强的污染和基准级污染。我们对其影响进行了细致分析,包括证据收集、无污染场景、污染量化以及数据污染的特征。
在第 3 节中,我们讨论了如何实现无污染评估。对于静态基准,当前的研究主要集中在三种关键的无污染策略上:使用最新数据自动更新数据集、重写现有数据以及实施主动的风险预防机制。同时,动态评估框架(Zhu 等人,2024a;Lei 等人,2024;Zhang 等人,2024e;Ying 等人,2024)利用组合优化、基于图的推理和受控随机化等技术生成测试样本,构建了一个不断发展的评估系统。此外,“大型语言模型作为评判者”范式(Bai 等人,2024)将大型语言模型转变为元评估者,实现了独立于静态基准的智能评估。
在第 4 节中,我们探讨了检测大型语言模型中数据污染的方法。我们将数据污染检测方法分为三种不同的范式:白盒检测,它依赖于对模型架构或训练数据的完全访问以达到高精度,采用诸如 N - gram 重叠(Brown 等人,2020)或嵌入相似性(Reimers,2019)等技术;灰盒检测,它利用部分模型信息(如令牌概率)来识别污染;黑盒检测,它在无法获取模型内部细节的情况下运行,而是依赖启发式规则(详情见附录 B)。这些方法共同展现了数据污染检测方法不断发展和多方面的特点,每种方法都有其独特的优势和挑战。
本文的结构如下,如图 1 所示。在第 2 节中,我们讨论了关于数据污染的定义和影响的现有研究。第 3 节总结了当前构建无污染数据集的方法和动态评估方法。第 4 节讨论了如何检测数据污染。最后,在第 5 节中,我们提出了该领域未来的几个重要挑战。
与以往综述的区别
本文系统地总结了不同场景下数据污染的定义,并对其影响进行了细致分析,特别是在第 2.2.4 节中重点关注了数据污染的特征。此外,我们在第 3.4 节中列举了几个用于量化数据污染的基准。