ifeval-lrm

Hugging Face2026-03-02 更新2026-03-03 收录

下载链接：

https://huggingface.co/datasets/haritzpuerto/ifeval-lrm

下载链接

链接失效反馈

官方服务：

资源简介：

IFEval 是一个用于评估指令遵循能力的基准数据集，包含可验证的自然语言指令。每个示例指定了一个或多个模型输出必须满足的约束条件（如包含/排除短语、遵循特定格式、尊重长度或风格约束）。该数据集旨在通过自动、基于规则的检查来测量模型对指令的遵循程度，无需人工标注。数据集包含 541 条指令，仅提供测试集。每个实例包含以下字段：`key`（数据点ID）、`prompt`（用户提示，末尾添加了适用于推理轨迹和最终答案的指令）、`instruction_id_list`（约束条件的机器可读规范）和 `kwargs`（评估脚本验证约束所需的信息）。主要任务是评估指令遵循能力，使用原始 IFEval 出版物中定义的指令级宽松准确度作为评估指标。数据集适用于研究和基准测试，但不适合直接部署在用户应用中。所有指令均为英文，且测试集规模较小（540个示例），因此在比较相似系统时需要谨慎。数据集采用 Apache 2.0 许可证。

创建时间：

2026-02-25

原始信息汇总

数据集概述

数据集基本信息

数据集名称: IFEval
托管地址: https://huggingface.co/datasets/haritzpuerto/ifeval-lrm
许可证: Apache 2.0
语言: 英语 (en)
规模分类: n<1K (少于1000个样本)

数据集描述与用途

IFEval 是一个用于评估指令遵循能力的基准测试，由可验证的自然语言指令组成。每个示例指定了模型在其输出中必须满足的一个或多个约束条件（例如，包含/排除短语、遵循特定格式、尊重长度或风格约束）。在该项目中，IFEval 用于评估：

在推理轨迹 (RT) 中的指令遵循能力。
在最终答案 (FA) 中的指令遵循能力。该基准测试提供基于规则的自动检查，因此无需人工标注即可衡量合规性。

主要用途：评估语言模型和推理模型在客观、可自动检查的标准下遵循显式指令的能力。 本仓库用途：衡量可控推理模型在其推理轨迹和最终答案中的指令遵循性能。该数据集仅用于研究和基准测试，不直接用于面向用户的应用部署。

数据集结构

总样本数: 541 条指令
数据分割: 仅包含测试集 (test)
下载大小: 99,799 字节
数据集大小: 344,197 字节

数据特征

每个数据实例包含以下字段：

key: 数据点的ID (数据类型: int64)
prompt: 用户提示文本。末尾添加了一条说明，指出该指令同时适用于推理轨迹和最终答案 (数据类型: string)。
instruction_id_list: 机器可读的约束条件规范，供评估脚本使用 (列表元素类型: string)。
kwargs: 评估脚本验证约束条件是否满足所需的信息。它是一个包含多个字段的列表，具体字段及其数据类型如下：
- num_highlights (int64)
- relation (string)
- num_words (int64)
- num_placeholders (int64)
- prompt_to_repeat (string)
- num_bullets (int64)
- section_spliter (string)
- num_sections (int64)
- capital_relation (string)
- capital_frequency (int64)
- keywords (列表元素类型: string)
- num_paragraphs (int64)
- language (string)
- let_relation (string)
- letter (string)
- let_frequency (int64)
- end_phrase (string)
- forbidden_words (列表元素类型: string)
- keyword (string)
- frequency (int64)
- num_sentences (int64)
- postscript_marker (string)
- first_word (string)
- nth_paragraph (int64)

任务与评估

主要任务: 指令遵循。
评估指标: 采用原始 IFEval 论文中定义的指令级宽松准确率。如果预测满足与指令相关的可验证约束，则被视为正确。
在本工作中：使用相同的宽松准确率指标分别评估推理轨迹和最终答案，以获得 IF-RT 和 IF-FA 分数。

数据来源

IFEval 是作为评估大语言模型指令遵循能力的自动基准测试而提出的。有关其构建、示例和官方评估脚本的详细信息，请参阅原始 IFEval 论文和代码仓库。

已知局限与注意事项

该基准测试侧重于客观、可验证的指令，可能无法捕捉更细微的指令遵循形式（例如，微妙的风格偏好、对话对齐）。
所有指令均为英语，因此该数据集不能直接衡量多语言指令遵循能力。
由于测试集相对较小（540个示例），对非常相似的系统进行细粒度比较时应谨慎解读。

引用

如果使用此数据集，请引用原始 IFEval 论文和本仓库的论文： bibtex @misc{puerto2026controllablereasoningmodelsprivate, title={Controllable Reasoning Models Are Private Thinkers}, author={Haritz Puerto and Haonan Li and Xudong Han and Timothy Baldwin and Iryna Gurevych}, year={2026}, eprint={2602.24210}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2602.24210}, }

@misc{zhou2023instructionfollowingevaluationlargelanguage, title={Instruction-Following Evaluation for Large Language Models}, author={Jeffrey Zhou and Tianjian Lu and Swaroop Mishra and Siddhartha Brahma and Sujoy Basu and Yi Luan and Denny Zhou and Le Hou}, year={2023}, eprint={2311.07911}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2311.07911}, }

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，评估大型语言模型遵循指令的能力至关重要。IFEval数据集通过设计一系列可验证的自然语言指令构建而成，每条指令均包含一个或多个模型输出必须满足的约束条件，例如包含或排除特定短语、遵循特定格式、尊重长度或风格限制等。数据集的构建核心在于将抽象的指令要求转化为机器可读的元数据规范，具体体现在`instruction_id_list`和`kwargs`字段中，这些结构化信息为后续自动化、基于规则的评估提供了精确的校验依据。整个数据集包含541条测试指令，专注于客观、可自动检查的指令遵循场景。

特点

该数据集的核心特点在于其评估目标的精确性与可验证性。它并非依赖主观的人工标注，而是通过预定义的、明确的约束规则来实现对模型输出的自动化评测。数据集中的每条指令都关联着具体的验证参数，如关键词、频率、段落数量等，这些参数被编码在`kwargs`字段中，确保了评估过程的客观性与可重复性。此外，IFEval的创新之处在于其评估维度不仅涵盖模型的最终答案，还延伸至推理过程，能够分别对推理轨迹和最终答案的指令遵循程度进行独立评分，从而为理解模型的内在决策机制提供了更细致的观察窗口。

使用方法

使用IFEval数据集进行评测时，研究者需将待评估的语言模型在给定的`prompt`下生成输出。评估脚本会依据每条数据对应的`instruction_id_list`和`kwargs`中定义的约束条件，自动检查模型生成的推理轨迹与最终答案是否满足要求。评测采用指令级别的宽松准确率作为核心指标，即只要预测满足该指令的所有可验证约束即视为正确。通过这种方式，可以分别计算出模型在推理轨迹遵循和最终答案遵循两个独立维度上的性能分数，为比较不同模型或同一模型不同配置下的指令遵循能力提供了标准化、自动化的基准工具。

背景与挑战

背景概述

IFEval数据集由Google Research等机构的研究人员于2023年提出，旨在构建一个可验证的自然语言指令遵循评估基准。该数据集聚焦于大型语言模型在遵循明确、客观指令方面的能力评估，核心研究问题在于如何量化模型对结构化约束的遵从程度，例如包含特定短语、遵循格式要求或满足长度与风格限制。作为指令遵循评估领域的重要工具，IFEval通过自动化规则检查替代人工标注，为模型可控性研究提供了标准化测试框架，显著推动了可解释与可控语言模型的发展。

当前挑战

IFEval数据集致力于解决指令遵循评估中的核心挑战，即如何设计客观、可自动验证的指令约束，以准确衡量模型对复杂要求的理解与执行能力。在构建过程中，研究人员面临多重挑战：一是设计涵盖多样约束类型（如关键词、格式、长度等）的指令体系，确保评估的全面性与代表性；二是实现高效、可靠的自动化验证机制，避免依赖主观人工判断；三是保持数据集的规模与质量平衡，尽管当前仅包含541条测试指令，但需在有限样本内有效捕捉模型行为的细微差异。

常用场景

经典使用场景

在自然语言处理领域，指令遵循能力是评估大型语言模型核心性能的关键维度。IFEval-lrm数据集作为一项专门设计的基准测试工具，其经典使用场景在于系统性地衡量模型在生成推理轨迹和最终答案时，对明确、可验证的自然语言指令的遵循程度。通过提供541条涵盖格式、长度、关键词、结构等多样化约束的指令实例，该数据集使得研究人员能够以自动化、规则驱动的方式，客观量化模型在复杂指令理解与执行方面的表现，尤其适用于对比不同模型或同一模型不同版本在指令遵循精度上的差异。

衍生相关工作

围绕IFEval-lrm数据集，已衍生出一系列探索模型可控推理与私有思维机制的前沿研究。其直接相关的经典工作包括提出“可控推理模型”的研究，该工作利用IFEval-lrm分别评估模型在推理轨迹和最终答案上的指令遵循分数，以论证模型内部推理过程的可控性与隐私性。此外，该数据集也常被后续研究用作基准工具，用于验证新型训练方法、架构改进或解码策略在提升模型指令遵循能力方面的有效性，进一步丰富了我们对模型行为可解释性与可引导性的认识。

数据集最近研究