RubricBench

github2026-03-03 更新2026-03-05 收录

下载链接：

https://github.com/planepig/rubricbench

下载链接

链接失效反馈

官方服务：

资源简介：

RubricBench是一个精心策划的基准数据集，包含1,147对专门设计用于评估基于评分标准的评估可靠性的比较数据。它解决了缺乏统一基准的问题，该基准需要具有判别复杂性和真实评分标准注释以进行严格分析。每个样本都增加了专家注释的原子评分标准，这些标准严格来自指令。数据集涵盖五个不同领域：聊天、指令遵循（IF）、STEM、编码和安全。

RubricBench is a carefully curated benchmark dataset comprising 1,147 pairs of comparative data specifically designed to evaluate the reliability of rubric-based assessment. It addresses the lack of unified benchmarks that require discriminative complexity and authentic rubric annotations to support rigorous analysis. Each sample is equipped with expert-annotated atomic rubrics strictly derived from the original task instructions. The dataset covers five distinct domains: Chat, Instruction Following (IF), STEM, Coding, and Safety.

创建时间：

2026-03-01

原始信息汇总

RubricBench 数据集概述

数据集基本信息

名称：RubricBench
目的：评估基于量规的自动评估的可靠性，旨在衡量自动化评估者在最终裁决和中间推理过程上的表现。
规模：包含 1,147 个成对比较样本。
核心特点：每个样本均附有从指令中严格推导出的、经过专家标注的原子化量规。

数据内容与结构

总样本数：1147 个案例。
数据文件：data/rubricbench_data.json
每个案例包含字段：
- case_id
- instruction
- response_a
- response_b
- label
- domain
- rubrics
- source
覆盖领域：数据集涵盖五个多样化领域：
- Chat
- Instruction Following (IF)
- STEM
- Coding
- Safety

数据集构建与筛选

构建过程采用多维过滤流程以保留具有挑战性的样本，具体筛选维度如下：

输入复杂性：优先选择包含复杂、组合性指令的样本，这些指令要求满足多个不同的需求。指令被分为显式约束和隐式约束。
输出表面偏见：针对那些被拒绝的回复作为表面干扰项的配对。这隔离了那些表面上的复杂性掩盖了未能满足核心指令要求的情况。偏见过滤包括长度偏见、格式偏见和语气偏见。
过程失败：隔离依赖于推理的实例。保留的样本展现出明显的推理谬误，例如幻觉步骤、逻辑不一致以及在推理过程中对指令约束的侵蚀。

评估与使用

评估脚本：eval_submission.py
提交格式：要求使用固定格式的CSV文件，包含 case_id 和 prediction 列头。
预测值支持格式：
- A / B （推荐）
- [[A]] / [[B]]
- 0 / 1 （0 表示偏好 A，1 表示偏好 B）
评估指标：
- 总体准确率 (Overall ACC)
- 分组准确率：IF / STEM / CODE / SAFE / CHAT

官方基准结果

数据集提供了四个官方基线系统的评估结果，具体性能如下表所示：

提交文件	IF	STEM	CODE	SAFE	CHAT	总体
openrubric_gemini3-flash.csv	0.7419	0.6520	0.5904	0.2500	0.5450	0.5798
checkeval_rubric_gemini3-flash.csv	0.6935	0.6320	0.6310	0.3750	0.4953	0.5702
auto_rubric_gemini3-flash.csv	0.6935	0.6320	0.6310	0.2875	0.5024	0.5667
rocket_rubric_gemini3-flash.csv	0.5565	0.5960	0.5572	0.2875	0.6066	0.5650

项目文件结构

rubricbench/ ├── data/ │ └── rubricbench_data.json ├── eval_submission.py ├── example_submission.csv ├── samples/ │ ├── rubric_results/ │ │ ├── openrubric_gemini3-flash.json │ │ ├── checkeval_rubric_gemini3-flash.json │ │ ├── auto_rubric_gemini3-flash.json │ │ └── rocket_rubric_gemini3-flash.json │ └── submissions/ │ ├── openrubric_gemini3-flash.csv │ ├── checkeval_rubric_gemini3-flash.csv │ ├── auto_rubric_gemini3-flash.csv │ └── rocket_rubric_gemini3-flash.csv └── README.md

引用信息

如果使用 RubricBench，请引用相关论文。

@misc{zhang2026rubricbenchaligningmodelgeneratedrubrics, title={RubricBench: Aligning Model-Generated Rubrics with Human Standards}, author={Qiyuan Zhang and Junyi Zhou and Yufei Wang and Fuyuan Lyu and Yidong Ming and Can Xu and Qingfeng Sun and Kai Zheng and Peng Kang and Xue Liu and Chen Ma}, year={2026}, eprint={2603.01562}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2603.01562}, }

相关链接

论文地址：https://arxiv.org/abs/2603.01562
Hugging Face 数据集地址：https://huggingface.co/datasets/DonJoey/rubricbench
许可证：MIT

搜集汇总

数据集介绍

构建方式

在自动化评估领域，RubricBench的构建过程体现了对评估可靠性的深度考量。该数据集通过多维过滤流程精心筛选出1147对具有挑战性的样本，覆盖聊天、指令遵循、STEM、编程和安全五大领域。构建时聚焦于输入复杂性，优先选择包含多重显性或隐性约束的复合型指令；同时针对输出表面偏差，专门捕捉那些因格式、长度或语气等表面特征而产生误导的样本对；此外还深入识别推理过程中的典型谬误，如逻辑不一致或虚构步骤，确保每对样本都能有效检验评估模型在复杂场景下的判别能力。

特点

RubricBench的显著特点在于其严谨的结构设计与丰富的标注信息。该数据集不仅提供最终的偏好标签，还附带了专家标注的原子化评分标准，这些标准严格源自指令本身，为分析评估模型的中间推理过程提供了可靠依据。其样本经过精心筛选，具备高度的判别复杂性，能够有效区分表面相似但实质不同的模型响应。数据集的领域分布广泛且均衡，涵盖了从学术推理到安全伦理等多个维度，为全面评估自动化评分系统的泛化能力奠定了坚实基础。

使用方法

使用RubricBench进行评估时，研究人员需按照指定格式准备提交文件。评估过程要求生成一个包含案例ID和预测结果的CSV文件，其中预测结果支持多种表示方式，如直接标注偏好选项或使用数值编码。通过运行官方提供的标准化评估脚本，系统会自动计算模型在整体及各子领域上的准确率，并与内置的基线模型结果进行对比。这种设计使得不同评估方法之间的性能比较变得直接而客观，为推进可靠自动化评估工具的发展提供了便捷且统一的测试平台。

背景与挑战

背景概述

在人工智能评估领域，自动化评判系统的可靠性与人类标准的一致性一直是核心研究议题。RubricBench数据集于2026年由Qiyuan Zhang等研究人员提出，旨在填补现有基准在判别复杂性和真实评分标准标注方面的空白。该数据集精心构建了1147对对比样本，覆盖聊天、指令遵循、STEM、编程与安全五大领域，通过专家标注的原子化评分标准，为评估自动化评判的最终结论与中间推理过程提供了统一且严谨的基准。其诞生推动了评分标准引导评估方法的标准化，对提升大型语言模型评估的透明度和可信度具有显著影响力。

当前挑战

RubricBench致力于解决评分标准引导评估中模型生成评分标准与人类标准对齐的挑战，其核心在于确保自动化评判系统不仅输出正确偏好，还能依据合理、透明的推理过程。构建过程中的挑战集中于样本的多维度筛选：输入复杂性要求处理包含显性与隐性约束的组合指令；输出表面偏差需排除因长度、格式或语气等表面特征造成的干扰；过程失败则需识别推理中的幻觉步骤、逻辑不一致及指令约束侵蚀等深层缺陷，从而保留真正具有判别难度的实例。

常用场景

经典使用场景

在自然语言处理与人工智能评估领域，RubricBench数据集被广泛用于系统性地检验自动化评估模型的判别能力与推理一致性。该数据集通过精心设计的成对比较样本，覆盖聊天、指令遵循、STEM、编程与安全五大领域，为研究者提供了一个标准化的测试平台，用以衡量模型在复杂、多约束场景下的评估可靠性，从而推动自动化评估工具向更精准、可解释的方向发展。

衍生相关工作

围绕RubricBench，学术界已衍生出多项经典研究工作，例如基于该数据集开发的OpenRubric、CheckEval等自动化评估框架，这些工作进一步探索了评分标准生成与人类对齐的机制。同时，该数据集也激发了对于评估偏差消减、跨领域泛化能力以及推理可解释性的深入研究，为构建下一代可信赖的AI评估生态系统奠定了理论与实证基础。

数据集最近研究