ifeval-lrm
收藏数据集概述
数据集基本信息
- 数据集名称: IFEval
- 托管地址: https://huggingface.co/datasets/haritzpuerto/ifeval-lrm
- 许可证: Apache 2.0
- 语言: 英语 (en)
- 规模分类: n<1K (少于1000个样本)
数据集描述与用途
IFEval 是一个用于评估指令遵循能力的基准测试,由可验证的自然语言指令组成。每个示例指定了模型在其输出中必须满足的一个或多个约束条件(例如,包含/排除短语、遵循特定格式、尊重长度或风格约束)。在该项目中,IFEval 用于评估:
- 在推理轨迹 (RT) 中的指令遵循能力。
- 在最终答案 (FA) 中的指令遵循能力。 该基准测试提供基于规则的自动检查,因此无需人工标注即可衡量合规性。
主要用途:评估语言模型和推理模型在客观、可自动检查的标准下遵循显式指令的能力。 本仓库用途:衡量可控推理模型在其推理轨迹和最终答案中的指令遵循性能。 该数据集仅用于研究和基准测试,不直接用于面向用户的应用部署。
数据集结构
- 总样本数: 541 条指令
- 数据分割: 仅包含测试集 (test)
- 下载大小: 99,799 字节
- 数据集大小: 344,197 字节
数据特征
每个数据实例包含以下字段:
key: 数据点的ID (数据类型: int64)prompt: 用户提示文本。末尾添加了一条说明,指出该指令同时适用于推理轨迹和最终答案 (数据类型: string)。instruction_id_list: 机器可读的约束条件规范,供评估脚本使用 (列表元素类型: string)。kwargs: 评估脚本验证约束条件是否满足所需的信息。它是一个包含多个字段的列表,具体字段及其数据类型如下:num_highlights(int64)relation(string)num_words(int64)num_placeholders(int64)prompt_to_repeat(string)num_bullets(int64)section_spliter(string)num_sections(int64)capital_relation(string)capital_frequency(int64)keywords(列表元素类型: string)num_paragraphs(int64)language(string)let_relation(string)letter(string)let_frequency(int64)end_phrase(string)forbidden_words(列表元素类型: string)keyword(string)frequency(int64)num_sentences(int64)postscript_marker(string)first_word(string)nth_paragraph(int64)
任务与评估
- 主要任务: 指令遵循。
- 评估指标: 采用原始 IFEval 论文中定义的指令级宽松准确率。如果预测满足与指令相关的可验证约束,则被视为正确。
- 在本工作中:使用相同的宽松准确率指标分别评估推理轨迹和最终答案,以获得 IF-RT 和 IF-FA 分数。
数据来源
IFEval 是作为评估大语言模型指令遵循能力的自动基准测试而提出的。有关其构建、示例和官方评估脚本的详细信息,请参阅原始 IFEval 论文和代码仓库。
已知局限与注意事项
- 该基准测试侧重于客观、可验证的指令,可能无法捕捉更细微的指令遵循形式(例如,微妙的风格偏好、对话对齐)。
- 所有指令均为英语,因此该数据集不能直接衡量多语言指令遵循能力。
- 由于测试集相对较小(540个示例),对非常相似的系统进行细粒度比较时应谨慎解读。
引用
如果使用此数据集,请引用原始 IFEval 论文和本仓库的论文: bibtex @misc{puerto2026controllablereasoningmodelsprivate, title={Controllable Reasoning Models Are Private Thinkers}, author={Haritz Puerto and Haonan Li and Xudong Han and Timothy Baldwin and Iryna Gurevych}, year={2026}, eprint={2602.24210}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2602.24210}, }
@misc{zhou2023instructionfollowingevaluationlargelanguage, title={Instruction-Following Evaluation for Large Language Models}, author={Jeffrey Zhou and Tianjian Lu and Swaroop Mishra and Siddhartha Brahma and Sujoy Basu and Yi Luan and Denny Zhou and Le Hou}, year={2023}, eprint={2311.07911}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2311.07911}, }



