ifeval

Hugging Face2026-01-20 更新2026-01-22 收录

下载链接：

https://huggingface.co/datasets/tonychenxyz/ifeval

下载链接

链接失效反馈

官方服务：

资源简介：

IFEval是一个用于测试大型语言模型（LLMs）遵循可验证指令能力的基准数据集，包含精确的约束条件。数据集包含541个提示，覆盖25种以上的约束类型，每个提示包含1-3个约束。评估方法为自动验证。约束类别包括格式约束（如JSON格式、项目符号列表、高亮部分等）、长度约束（如字数、句子数、段落数等）、关键词约束（如关键词存在、关键词频率、禁止词等）、风格约束（如全大写、全小写、大写词频率等）、内容约束（如占位符、附言、引用等）和位置约束（如结束短语、语言等）。数据集提供两种变体：'memwrap'（带有内存标签的指令）和'plain'（原始指令提示）。使用自动验证的'ifeval'评分函数进行评估，包括严格准确率、宽松准确率、约束数量、通过数量等指标。

IFEval is a benchmark dataset developed to test the ability of large language models (LLMs) to follow verifiable instructions, which includes precise constraint conditions. The dataset contains 541 prompts covering more than 25 types of constraints, with each prompt incorporating 1 to 3 constraints. The evaluation method is automatic verification. Constraint categories include format constraints (e.g., JSON format, bulleted lists, highlighted sections, etc.), length constraints (e.g., word count, sentence count, paragraph count, etc.), keyword constraints (e.g., keyword presence, keyword frequency, prohibited words, etc.), style constraints (e.g., all uppercase, all lowercase, uppercase word frequency, etc.), content constraints (e.g., placeholders, postscripts, citations, etc.), and positional constraints (e.g., closing phrases, language requirements, etc.). The dataset offers two variants: 'memwrap' (instructions with memory tags) and 'plain' (raw instruction prompts). Evaluation is conducted using the automatic-verification-based 'ifeval' scoring function, with metrics including strict accuracy, loose accuracy, total number of constraints, number of passed constraints, and other relevant indicators.

创建时间：

2026-01-10

原始信息汇总

IFEval 数据集概述

数据集基本信息

数据集名称: IFEval (Instruction-Following Evaluation)
托管地址: https://huggingface.co/datasets/tonychenxyz/ifeval
核心用途: 评估大型语言模型遵循带有精确约束的可验证指令的能力。

数据集规模与结构

提示总数: 541
配置数量: 2
数据分割: 仅包含测试集 (test)

配置详情

memwrap 配置
- 描述: 指令被 <|memory_start|> / <|memory_end|> 标签及元指令包裹。
- 数据文件: memwrap/test-*
- 特征:
  - prompt (string): 格式化后的提示。
  - category (string): 类别标识。
  - extra_info (struct): 包含评分所需的结构化信息。
    - ground_truth (struct): 包含指令ID列表 (instruction_id_list)、参数 (kwargs) 和键 (key)。
    - scoring_function (string): 评分函数名称。
    - variant (string): 变体标识。
- 数据量: 541 个样本，440,490 字节。
- 下载大小: 109,267 字节。
plain 配置
- 描述: 原始指令提示，不包含记忆标签。
- 数据文件: plain/test-*
- 特征: 与 memwrap 配置的特征结构相同。
- 数据量: 541 个样本，387,472 字节。
- 下载大小: 104,139 字节。

约束类型与评估

约束类型总数: 超过 25 种。
每个提示的约束数量: 1 到 3 个。
评估方法: 自动验证。

约束类别

格式约束: JSON格式、项目符号列表、高亮章节、标题、多章节、限定选项的回应。
长度约束: 单词数、句子数、段落数、第N段首词。
关键词约束: 关键词存在性、关键词频率、禁用词、字母频率。
风格约束: 全大写、全小写、大写词频率、无逗号。
内容约束: 占位符、附言、引用、两个回答、重复提示。
位置约束: 结束短语、指定语言。

来源与引用

基础基准: 基于 Google Research 的 IFEval。
论文: Instruction-Following Evaluation for Large Language Models。
引用格式: bibtex @article{zhou2023instruction, title={Instruction-Following Evaluation for Large Language Models}, author={Zhou, Jeffrey and Lu, Tianjian and Mishra, Swaroop and Brahma, Siddhartha and Basu, Sujoy and Luan, Yi and Zhou, Denny and Hou, Le}, journal={arXiv preprint arXiv:2311.07911}, year={2023} }

评分方法

评分函数: ifeval
主要指标:
- strict_accuracy: 所有约束均满足。
- loose_accuracy: 至少一个约束满足。
- num_constraints: 约束总数。
- num_passed: 满足的约束数。
- constraint_N_pass: 单个约束的满足情况。

搜集汇总

数据集介绍

构建方式

在大型语言模型评估领域，IFEval数据集通过精心设计的指令遵循任务构建而成。该数据集包含541个测试提示，每个提示嵌入了一至三个可验证的约束条件，总计涵盖超过25种约束类型。构建过程基于Google Research的研究框架，通过系统化地定义格式、长度、关键词、风格、内容及位置等多维度约束，生成具有精确评估标准的测试用例。数据以两种变体形式提供：memwrap变体将指令包裹在特定记忆标签中并附加元指令，而plain变体则呈现未经修饰的原始指令，确保了评估场景的多样性与可控性。

使用方法

使用IFEval数据集时，研究人员可通过Hugging Face的datasets库便捷加载其memwrap或plain配置。加载后，每个数据条目包含提示文本、类别标签及存储了真实约束条件与评分函数的额外信息。评估过程主要调用内置的ifeval评分函数，该函数能自动验证模型输出是否满足预设约束，并输出包括严格准确度、宽松准确度、约束总数及通过数量在内的多项指标。这种集成化的评估流程，使得研究者能够高效地对不同大型语言模型的指令遵循能力进行标准化测试与横向比较。

背景与挑战

背景概述

在大型语言模型（LLM）迅猛发展的背景下，评估模型遵循复杂、精确指令的能力成为衡量其实际应用价值的关键。IFEval数据集由Google Research团队于2023年创建，其核心研究问题聚焦于开发一套可自动验证的指令遵循评估基准。该数据集通过设计超过25种可验证的约束类型，系统性地检验模型在格式、长度、关键词、风格及内容等多维度上对指令的遵循精度，为LLM的可靠性评估提供了重要工具，推动了指令遵循评估向客观化、标准化方向发展。

当前挑战

IFEval数据集旨在解决大型语言模型在指令遵循任务中面临的评估挑战，即如何客观、量化地衡量模型对包含多重精确约束的自然语言指令的理解与执行能力。其构建过程中的主要挑战在于设计一套全面且可自动验证的约束体系，这需要将模糊的指令意图转化为形式化、可编程的验证规则，并确保这些规则能够覆盖多样化的语言现象与任务场景，同时保持评估过程的高效性与可复现性。

常用场景

经典使用场景

在大型语言模型评估领域，IFEval数据集被广泛用于系统化测试模型遵循精确指令的能力。该数据集通过541个精心设计的提示，覆盖了格式、长度、关键词、风格、内容与位置等六大类超过25种可验证约束条件，为研究者提供了一个标准化的基准平台。经典使用场景包括在模型开发阶段，对指令跟随性能进行自动化、细粒度的量化评估，帮助识别模型在特定约束类型上的薄弱环节，从而指导后续的优化与调整。

解决学术问题

IFEval数据集有效解决了大型语言模型研究中关于指令跟随能力评估缺乏标准化、可量化基准的学术问题。传统评估多依赖人工判断或模糊的定性分析，难以精确衡量模型对复杂、多约束指令的理解与执行程度。该数据集通过定义明确的、可自动验证的约束条件，将指令跟随这一核心能力分解为多个可测量的维度，为客观比较不同模型的性能提供了科学依据，推动了该领域评估方法向更严谨、可复现的方向发展。

实际应用

在实际应用中，IFEval数据集为AI产品开发与部署提供了关键的质量控制工具。开发团队可利用该数据集对即将上线的对话系统或文本生成服务进行预发布测试，确保其能够准确响应用户包含特定格式、字数或关键词要求的复杂指令。例如，在自动化报告生成、内容合规性检查或交互式表单填写等场景中，模型能否严格遵守指令细节直接关系到输出的可用性与可靠性，IFEval的评估结果为此类应用场景的模型选型与调优提供了直接参考。

数据集最近研究