IFBench

github2025-07-04 更新2025-07-05 收录

下载链接：

https://github.com/allenai/IFBench

下载链接

链接失效反馈

官方服务：

资源简介：

IFBench是一个新的、具有挑战性的精确指令遵循基准测试，包含两个部分：OOD约束（58个新的具有挑战性的约束及其验证函数）和（可选）两轮多轮约束隔离。此外，还包括29个新的具有挑战性的IF-RLVR训练约束及其验证函数。

IFBench represents a novel and challenging precision instruction following benchmark test, encompassing two main parts: OOD constraints (58 new challenging constraints with their validation functions) and (optionally) two rounds of multi-round constraint isolation. Additionally, it includes 29 new challenging IF-RLVR training constraints with their validation functions.

创建时间：

2025-06-11

原始信息汇总

IFBench数据集概述

数据集简介

IFBench是一个用于精确指令遵循的新颖且具有挑战性的基准测试，包含以下两部分：

OOD约束：58个新颖且具有挑战性的约束条件，附带相应的验证函数。约束模板与WildChat（Zhao et al. 2024）的保留提示集结合使用。
多轮约束隔离（可选）：提示和约束在两轮对话中分离，第一轮是用户提示和模型响应，第二轮是修改初始提示的约束条件。

数据集内容

新增IF-RLVR训练约束：29个新颖且具有挑战性的约束条件，附带相应的验证函数。

数据集文件

测试数据：IFBench_test
多轮测试数据：IFBench_multi-turn
IF-RLVR训练数据：IF_multi_constraints_upto5

评估方法

安装requirements.txt中的依赖。
准备两个jsonl文件：IFBench_test.jsonl（位于data文件夹）和包含评估提示及补全的文件（参考sample_output.jsonl）。
运行以下命令： bash python3 -m run_eval --input_data=IFBench_test.jsonl --input_response_data=sample_output.jsonl --output_dir=eval

许可信息

代码库许可：Apache 2.0
数据许可：ODC-BY-1.0，用于研究和教育用途。

致谢

IFBench部分内容基于并扩展了IFEval（Zhou et al. 2023）。

引用

bibtex @misc{pyatkin2025generalizing, title={Generalizing Verifiable Instruction Following}, author={Valentina Pyatkin and Saumya Malik and Victoria Graf and Hamish Ivison and Shengyi Huang and Pradeep Dasigi and Nathan Lambert and Hannaneh Hajishirzi}, year={2025}, eprint={TODO}, archivePrefix={arXiv}, primaryClass={cs.CL} }

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，精确遵循指令的能力评估一直是研究热点。IFBench采用创新性的双模块构建策略，通过58个新颖的约束条件与WildChat保留集的提示模板相结合，形成开放式分布约束测试集。其独特之处在于设计了可选的二轮对话隔离机制，将初始提示与约束条件分置于不同对话轮次，有效模拟真实交互场景。此外，团队还专门开发了29个带有验证函数的新型训练约束，为指令跟随研究提供更丰富的训练资源。

特点

该数据集最显著的特点是实现了约束条件与验证函数的双重创新。58个精心设计的约束模板覆盖了多样化的指令遵循场景，每个约束都配有专门的验证函数确保评估精确性。多轮对话隔离机制突破传统单轮评估局限，为研究语言模型在连续对话中的指令理解能力提供新维度。数据集严格遵循开放式分布原则，测试集与训练集完全隔离，有效避免了数据泄露对评估结果的影响。

使用方法

研究者可通过Hugging Face平台获取三个核心数据组件：标准测试集、多轮测试集及IF-RLVR训练集。评估流程采用模块化设计，用户需准备模型输出文件与标准测试集，通过run_eval脚本自动生成评估报告。对于训练应用，团队开源了基于GRPO算法的训练代码，用户可结合提供的多约束训练数据微调模型。所有数据均采用ODC-BY-1.0许可，确保在符合伦理规范的前提下支持学术研究。

背景与挑战

背景概述

IFBench是由AllenAI研究团队于2025年推出的新型基准测试数据集，专注于验证语言模型在精确指令跟随任务中的泛化能力。该数据集构建于WildChat和IFEval等前沿研究基础之上，通过引入58个新颖的约束条件及其验证函数，为评估模型在开放式分布约束下的表现提供了标准化测试框架。其核心研究问题聚焦于多轮对话场景中指令约束的隔离处理能力，以及复杂约束条件的可验证性，为对话式AI系统的可靠性研究树立了新的标杆。作为指令跟随评估领域的重要补充，IFBench通过严格的约束验证机制，显著提升了模型行为可解释性的研究深度。

当前挑战

该数据集主要应对对话系统中精确指令跟随的两大挑战：在领域问题层面，需解决多轮对话中约束条件的动态隔离问题，即如何确保模型在接收到后续约束时能正确修正先前的响应；同时需验证模型对复合约束条件的组合推理能力。在构建过程中，研究团队面临约束模板与自然语言提示的有机融合难题，既要保持约束的严格可验证性，又要确保提示的自然流畅性。此外，验证函数的开发需要精确匹配各类约束的语义边界，这对标注一致性和逻辑完备性提出了极高要求。

常用场景

经典使用场景

在自然语言处理领域，IFBench作为一个专注于精确指令遵循的基准测试工具，其经典使用场景主要体现在评估大型语言模型对复杂指令的理解与执行能力。通过58个新颖且具有挑战性的约束条件及其验证函数，研究者能够系统地测试模型在面对未知分布约束时的表现，尤其在多轮对话场景中，模型需根据分离的提示与约束动态调整响应策略。

解决学术问题

IFBench有效解决了指令跟随模型中普遍存在的泛化性不足问题，为量化评估模型对隐含约束、多轮交互及复合指令的处理能力提供了标准化框架。其引入的IF-RLVR训练约束进一步推动了可验证指令遵循技术的发展，填补了传统评估方法在动态约束隔离和复杂语义理解方面的空白，对提升语言模型的可靠性与可控性具有里程碑意义。

衍生相关工作

IFBench衍生的经典工作包括基于GRPO算法的强化学习框架IF-RLVR，该框架通过29个新增训练约束优化了模型的指令验证能力。其技术路线延续并拓展了Google Research的IFEval项目，在约束模板组合、多轮验证函数设计等方面形成突破性进展，为后续研究如WildChat多模态指令跟随系统提供了关键理论基础。

以上内容由遇见数据集搜集并总结生成