IFEval-Hard

Hugging Face2026-02-14 更新2026-02-15 收录

下载链接：

https://huggingface.co/datasets/rahul-singhal/IFEval-Hard

下载链接

链接失效反馈

官方服务：

资源简介：

IFEval-Hard是从原始IFEval指令遵循基准中精心挑选的一个更具挑战性的子集，旨在评估和压力测试指令遵循能力（及改进方法），特别关注那些大型语言模型（尤其是GPT-4o）表现显著低于完整IFEval数据集的提示。该子集包含148个示例，这些示例是根据GPT-4o在20次运行中至少失败一次的标准筛选出来的。数据集保留了原始IFEval示例的结构和字段，仅添加了一个顺序标识符列（id）。IFEval-Hard适用于评估指令遵循的鲁棒性，以及比较不同提示优化方法在提高模型通过率方面的效果。数据集包含的字段包括id（子集顺序标识符）、key（原始数据集唯一ID）、prompt（任务描述）、instruction_id_list（可验证指令列表）和kwargs（用于指定每个指令的参数数组）。

创建时间：

2026-02-06

原始信息汇总

IFEval-Hard 数据集概述

数据集基本信息

数据集名称：IFEval-Hard
父数据集：google/IFEval
许可证：apache-2.0
主要语言：英语 (en)
任务类别：文本生成 (text-generation)
规模分类：n<1K
数据子集规模：148 个示例
下载大小：40293 字节
数据集大小：89240 字节

数据集描述

IFEval-Hard 是从原始 IFEval 指令遵循基准中筛选出的一个更具挑战性的子集。其目的是通过专注于大型语言模型（特别是 GPT-4o）表现远差于完整 IFEval 数据集的提示，来评估和压力测试指令遵循能力（以及旨在改进它的方法）。

数据来源与构建方法

来源：该数据集是 IFEval 基准（包含 541 个样本）的一个子集。
筛选标准：如果一个示例在 GPT-4o 的 20 次运行中至少失败一次，则被定义为“困难”示例。从完整 IFEval 数据集中筛选出符合此标准的示例，得到包含 148 个示例的子集。
数据关系：此数据集是父数据集的一个过滤子集，未添加任何额外注释；评估方式与 IFEval 一样，保持程序化检查。

数据集结构

IFEval-Hard 保留了原始 google/IFEval 数据集的相同模式，仅增加了一个 id 列（0-147），为该 148 示例子集提供顺序标识符。原始数据集中的 key 列被原样保留。

数据字段说明

id: IFEval-Hard 子集的顺序标识符（0-147）。这是相对于原始 google/IFEval 数据集唯一增加的列。
key: 来自原始 google/IFEval 数据集的提示唯一 ID，保留以维持可追溯性。
prompt: 描述模型应执行的任务。
instruction_id_list: 可验证指令的数组。完整集合及其描述请参见 IFEval 论文的表 1。
kwargs: 用于指定 instruction_id_list 中每个可验证指令的参数数组。

数据实例示例

json { "id": 0, "key": 102, "prompt": "Write a dialogue between two people, one is dressed up in a ball gown and the other is dressed down in sweats. The two are going to a nightly event. Your answer must contain exactly 3 bullet points in the markdown format (use "* " to indicate each bullet) such as:

This is the first point.
This is the second point.", "instruction_id_list": [ "detectable_format:number_bullet_lists" ], "kwargs": [ { "num_bullets": 3, ... // 其他可能为 null 的字段 } ] }

预期用途

评估在具有挑战性的提示上的指令遵循鲁棒性。
比较提示优化方法，以了解哪些方法能最有效地使模型获得更高的通过率。

模型性能对比

在测试的模型上，IFEval-Hard 上的表现均出现显著下降：

模型	IFEval (单次)	IFEval-Hard (单次)	差异
GPT-4o	81.3%	39.9%	-41.4%
GPT-4.1	87.2%	58.1%	-29.1%
GPT-OSS-120b	84.7%	66.2%	-18.4%
GPT-5	93.5%	82.4%	-11.1%
GPT-5.2	92.1%	77.0%	-15.0%
Gemini 3 Pro Preview	92.6%	82.4%	-10.2%
DeepSeek V3.2	89.1%	73.0%	-16.1%

搜集汇总

数据集介绍

构建方式

在指令遵循评估领域，IFEval-Hard数据集的构建体现了对模型鲁棒性的深度考量。该数据集从原始IFEval基准中筛选出148个最具挑战性的样本，其筛选标准基于GPT-4o模型在20次独立运行中对同一指令的失败表现。这种构建方式聚焦于前沿模型尚未充分掌握的复杂指令场景，旨在创建一个能够有效衡量模型在困难任务上性能退化的评估子集，从而为指令遵循能力的压力测试提供精准工具。

特点

该数据集的核心特征在于其刻意选取的高难度样本集合，这些样本使得包括GPT-4o在内的先进大语言模型性能出现显著下降。数据保留了原始IFEval的结构与字段，仅新增了顺序ID列以确保子集内的可索引性。每个样本均包含明确的提示文本、可验证的指令标识列表以及对应的参数字典，这种结构化的设计使得评估过程能够通过程序化检查精确判断指令是否被遵循，为研究指令遵循的失败模式提供了清晰的分析框架。

使用方法

该数据集主要用于评估大语言模型在复杂指令遵循任务上的鲁棒性，以及比较不同提示优化方法的有效性。研究人员可通过加载数据集，将样本中的提示输入待测模型，并依据指令标识列表和参数，对模型输出进行自动化验证，计算通过率。通过对比模型在完整IFEval集和此困难子集上的性能差异，能够深入洞察模型在挑战性场景下的能力边界，为提升指令遵循的可靠性提供实证依据。

背景与挑战

背景概述

在大型语言模型（LLM）能力评估领域，指令遵循作为衡量模型理解与执行用户意图的核心维度，日益受到学术界与工业界的重视。IFEval-Hard数据集源于2023年发布的IFEval基准测试，由Google研究团队主导构建，旨在通过程序化验证方法系统评估模型对复杂指令的遵循能力。该数据集作为IFEval的精选子集，聚焦于前沿模型如GPT-4o表现显著下滑的挑战性样本，其创建旨在深化对模型鲁棒性与一致性的理解，为指令优化与模型改进提供精准的评估工具，推动了语言模型可靠性研究的发展。

当前挑战

IFEval-Hard所针对的核心挑战在于揭示大型语言模型在复杂、多约束指令遵循任务中的脆弱性。具体而言，该数据集旨在解决模型面对隐含格式要求、结构化输出规范或多重条件组合时，易出现指令遗漏或执行偏差的问题。在构建过程中，挑战主要体现在从原始数据集中筛选出能够有效区分模型性能的‘困难’样本，其标准定义为GPT-4o在多次运行中至少失败一次，这要求对模型失败模式有深刻洞察，并确保所选样本能稳定反映模型能力的边界，而非随机波动。

常用场景

经典使用场景

在自然语言处理领域，指令遵循能力是评估大型语言模型交互性能的核心指标之一。IFEval-Hard数据集作为IFEval基准的精选子集，专门用于对前沿语言模型进行高难度指令遵循的鲁棒性评估。该数据集聚焦于那些即使如GPT-4o等先进模型在多次尝试中仍可能失败的复杂提示，通过程序化检查模型输出是否严格遵循了提示中的多项具体约束，例如精确的格式要求、关键词使用或结构规范，从而为模型在挑战性场景下的指令理解与执行能力提供精准的量化分析。

衍生相关工作

围绕IFEval及其硬核子集，学术界衍生了一系列旨在提升指令遵循能力的研究工作。这些工作主要包括新型的提示优化算法，如思维链提示、自洽性解码以及基于强化学习的指令微调方法，它们利用IFEval-Hard作为核心评估基准来验证其有效性。同时，该数据集也催生了对模型“幻觉”和“过度遵从”现象的深入分析，促进了如“指令反演”等诊断性框架的发展。这些研究共同推动了对大模型行为可预测性与可控性的理解，为下一代可靠AI系统的构建奠定了方法论基础。

数据集最近研究