IF-RewardBench

github2026-03-09 更新2026-03-07 收录

下载链接：

https://github.com/thu-coai/IF-RewardBench

下载链接

链接失效反馈

官方服务：

资源简介：

IF-RewardBench是一个全面的元评估基准，用于评估判断模型在指令跟随评估中的能力。它包含842个不同的指令，涵盖单轮交互、多轮交互和系统提示可操控性场景。对于每个指令，我们的基准构建了一个偏好图，包含基于指令跟随质量的多个响应之间的所有成对偏好，从而实现对判断模型排序能力的列表评估。

IF-RewardBench is a comprehensive meta-evaluation benchmark designed to assess the capability of judgment models in instruction-following evaluation. It contains 842 diverse instructions covering single-turn interaction, multi-turn interaction, and system prompt controllability scenarios. For each instruction, the benchmark constructs a preference graph that includes all pairwise preferences among multiple responses based on their instruction-following quality, thus enabling listwise evaluation of the ranking ability of judgment models.

创建时间：

2026-02-28

原始信息汇总

IF-RewardBench数据集概述

数据集简介

IF-RewardBench是一个用于评估指令跟随评估中裁判模型能力的综合性元评估基准。该基准包含842条多样化的指令，涵盖单轮交互、多轮交互和系统提示可操控性场景。针对每条指令，基准构建了一个偏好图，其中包含基于指令跟随质量的多个响应之间的所有成对偏好，从而支持一种列表式评估范式来评估裁判模型的排序能力。

数据格式

数据位于data/目录中。每个示例的格式如下：

id (整数)：示例的唯一标识符。
response_generation_model (字符串)：此示例的响应生成模型。
instruction_type (字符串)：此示例的指令类型。
messages (列表)：用户指令，可能包含系统提示和对话历史。
checklist (列表)：用户指令的约束检查清单。
constraint_type (列表)：检查清单中每个约束的约束类别和约束组合类型。
responses (列表)：所有响应及其对应的每个约束的指令跟随判断。
preference_graph (列表)：这些响应之间的所有偏好关系。

相关资源

论文链接：https://arxiv.org/abs/2603.04738
裁判模型推理代码：位于inference/目录，基于vLLM框架，包含约束评估和整体评估的推理代码。
评估指标计算代码：位于metrics/目录，包含约束评估和整体评估的指标计算代码。

搜集汇总

数据集介绍

构建方式

在指令跟随评估领域，IF-RewardBench的构建采用了系统化设计原则，通过精心筛选842条多样化指令，涵盖单轮交互、多轮对话及系统提示可控性三大场景。针对每条指令，研究团队基于指令跟随质量构建了包含多个响应间完整偏好关系的偏好图，从而实现了对评估模型排序能力的列表式评估框架，确保了数据结构的严谨性与评估维度的全面性。

特点

该数据集的核心特征在于其多维度的评估架构，不仅整合了用户指令、系统提示与对话历史等上下文信息，还引入了约束检查清单及对应的约束类型分类，为深度分析模型行为提供了细粒度标注。偏好图的嵌入使得数据集能够支持从成对比较到整体排序的复杂评估任务，显著提升了评估过程的科学性与可解释性。

使用方法

使用者可通过数据集提供的标准化代码框架进行高效评估，利用vLLM框架执行约束评估与整体评估的推理流程，并通过随机化响应位置设计以消除潜在偏差。配套的指标计算脚本支持对评估结果的自动化分析，使得研究人员能够便捷地验证评估模型在指令跟随任务中的性能表现与鲁棒性。

背景与挑战

背景概述

随着大型语言模型的快速发展，评估模型遵循指令的能力成为自然语言处理领域的关键研究课题。IF-RewardBench由研究团队于2024年提出，旨在构建一个全面的元评估基准，专门用于评测裁判模型在指令遵循评估中的性能。该数据集涵盖了842条多样化指令，涉及单轮交互、多轮交互及系统提示可控性等多种场景，通过构建包含多响应间成对偏好的偏好图，支持列表式评估范式，从而系统性地衡量裁判模型的排序能力，对推动指令遵循评估的标准化与客观化具有重要影响力。

当前挑战

IF-RewardBench致力于解决指令遵循评估中裁判模型能力评测的挑战，核心问题在于如何准确量化模型对复杂指令的响应质量，尤其是在多约束和动态交互场景下。构建过程中的挑战包括设计覆盖广泛指令类型的多样化样本集，确保偏好图构建的可靠性与一致性，以及处理多轮对话和系统提示的可控性评估，这些都需要精细的标注框架和严格的验证流程来保证数据质量与评估效度。

常用场景

经典使用场景

在指令跟随评估领域，IF-RewardBench作为一项元评估基准，其经典使用场景集中于系统性地测评评判模型在复杂指令理解与执行上的能力。该数据集通过构建涵盖单轮交互、多轮对话及系统提示可控性等多样化场景的842条指令，并基于指令跟随质量生成包含全对偏好的偏好图，为研究者提供了一个标准化的列表式评估框架，以深入分析评判模型在排序任务中的表现。

衍生相关工作

基于IF-RewardBench的评估框架，学术界衍生出一系列经典研究工作。这些工作主要围绕提升评判模型的泛化能力与鲁棒性展开，例如开发适配多轮交互的动态评估算法，或利用偏好图数据训练更高效的排名模型。同时，该数据集也促进了跨模型比较研究，为后续构建更全面的指令跟随评估生态系统奠定了数据基础，推动了自动化评估工具在AI对齐研究中的深入应用。

数据集最近研究