当前位置：首页 > news >正文

【复杂指令遵循 Benchmark】论文分享：CodeIF-Bench

news 2025/6/6 9:05:52

论文名称：CodeIF-Bench: Evaluating Instruction-Following Capabilities of Large Language Models in Interactive Code Generation

论文链接：https://arxiv.org/abs/2503.22688

机构：北航 + 华为云

Github代码链接：https://github.com/zhu-zhu-ding/CodeIF-Bench

简介

现有代码生成的基准多关注单轮交互的功能正确性，缺乏对多轮交互中指令遵循能力的评估，尤其在复杂上下文和多轮对话场景下。所以本文提出了一个CodeIF-Bench，来对多轮代码生成任务中LLM的指令遵循能力进行自动化评估，而且任务覆盖不同难度等级，最高可达仓库级任务。

构造方法

框架概述

在这里插入图片描述

图2展示了CodeIF-Bench基准构建中可验证指令策略提取和数据收集的流程，具体如下：

Step-1：VI Strategy Extraction（可验证指令策略提取）

① Code Review Comment（代码评审评论）：从实际的代码评审评论入手，这是整个流程的起始点。

② Clustering（聚类）：对收集到的代码评审评论样本进行聚类，把相似的评论归在一起。比如“什么是polygamma的输出类型？”“allocation(888, 887)会发生什么？”等评论就是样本。

③ LLM Abstraction（LLM抽象）：利用LLM对聚类后的评论进行处理，将其抽象成高级需求。像输出类型一致性、边界条件处理、版本兼容性检查等就属于高级需求。

④ Check（检查）：由人工对LLM生成的高级需求进行检查，最终确定可验证指令策略，包括输入输出条件、边缘情况处理、异常处理、上下文使用验证等策略。

Step-2：Data Collection（数据收集）

① Data Source（数据源）：数据来源于MBPP和DevEval 。这里会获取指令（包括功能描述、函数参数等）、初始测试（如tests/test_socketutils.py:test_socketutils ）以及项目信息（命名空间、项目路径等）和依赖信息。

② Initial Instruction（初始指令）：基于数据源生成初始指令，比如要求编写一个名为“setmaxsize”的Python函数，同时会给出函数功能和参数等信息，还可能包含黄金上下文（如boltons.socketutils.NetstringSocket的代码）。

③ Verifiable Instruction Pool（可验证指令池）：依据可验证指令策略，生成一系列可验证指令。例如针对“setmaxsize”函数，指令可以是函数应接受一个整数参数并相应更新实例属性，以及当参数不是正整数或零时应引发ValueError异常等。

④ Verifiable Instruction Tests（可验证指令测试）：为每个可验证指令创建对应的测试用例，如tests/test_socketutils.py:test_setmaxsize_updates_attributes_on_invalid_maxsize等，用于验证生成的代码是否满足指令要求。

⑤ Interactive Session（交互会话）：在交互过程中，先给出初始指令，LLM生成代码后进行初始测试；接着给出第一条可验证指令，模型生成对应代码后，结合初始测试和这条指令的测试进行验证；依此类推，不断加入新的可验证指令并进行测试，逐步完善和评估代码。

一句话总结就是：先从代码评审评论里找问题并分类，用LLM提炼成需求，确定验证策略，再结合现有案例明确初始指令，依策略生成具体指令和测试用例，在交互中不断完善来构造评测集。

下面介绍下Step-1和Step-2的一些处理细节。