RubricBench
收藏RubricBench 数据集概述
数据集基本信息
- 名称:RubricBench
- 目的:评估基于量规的自动评估的可靠性,旨在衡量自动化评估者在最终裁决和中间推理过程上的表现。
- 规模:包含 1,147 个成对比较样本。
- 核心特点:每个样本均附有从指令中严格推导出的、经过专家标注的原子化量规。
数据内容与结构
- 总样本数:1147 个案例。
- 数据文件:
data/rubricbench_data.json - 每个案例包含字段:
case_idinstructionresponse_aresponse_blabeldomainrubricssource
- 覆盖领域:数据集涵盖五个多样化领域:
- Chat
- Instruction Following (IF)
- STEM
- Coding
- Safety
数据集构建与筛选
构建过程采用多维过滤流程以保留具有挑战性的样本,具体筛选维度如下:
- 输入复杂性:优先选择包含复杂、组合性指令的样本,这些指令要求满足多个不同的需求。指令被分为显式约束和隐式约束。
- 输出表面偏见:针对那些被拒绝的回复作为表面干扰项的配对。这隔离了那些表面上的复杂性掩盖了未能满足核心指令要求的情况。偏见过滤包括长度偏见、格式偏见和语气偏见。
- 过程失败:隔离依赖于推理的实例。保留的样本展现出明显的推理谬误,例如幻觉步骤、逻辑不一致以及在推理过程中对指令约束的侵蚀。
评估与使用
- 评估脚本:
eval_submission.py - 提交格式:要求使用固定格式的CSV文件,包含
case_id和prediction列头。 - 预测值支持格式:
A/B(推荐)[[A]]/[[B]]0/1(0表示偏好 A,1表示偏好 B)
- 评估指标:
- 总体准确率 (Overall ACC)
- 分组准确率:IF / STEM / CODE / SAFE / CHAT
官方基准结果
数据集提供了四个官方基线系统的评估结果,具体性能如下表所示:
| 提交文件 | IF | STEM | CODE | SAFE | CHAT | 总体 |
|---|---|---|---|---|---|---|
| openrubric_gemini3-flash.csv | 0.7419 | 0.6520 | 0.5904 | 0.2500 | 0.5450 | 0.5798 |
| checkeval_rubric_gemini3-flash.csv | 0.6935 | 0.6320 | 0.6310 | 0.3750 | 0.4953 | 0.5702 |
| auto_rubric_gemini3-flash.csv | 0.6935 | 0.6320 | 0.6310 | 0.2875 | 0.5024 | 0.5667 |
| rocket_rubric_gemini3-flash.csv | 0.5565 | 0.5960 | 0.5572 | 0.2875 | 0.6066 | 0.5650 |
项目文件结构
rubricbench/ ├── data/ │ └── rubricbench_data.json ├── eval_submission.py ├── example_submission.csv ├── samples/ │ ├── rubric_results/ │ │ ├── openrubric_gemini3-flash.json │ │ ├── checkeval_rubric_gemini3-flash.json │ │ ├── auto_rubric_gemini3-flash.json │ │ └── rocket_rubric_gemini3-flash.json │ └── submissions/ │ ├── openrubric_gemini3-flash.csv │ ├── checkeval_rubric_gemini3-flash.csv │ ├── auto_rubric_gemini3-flash.csv │ └── rocket_rubric_gemini3-flash.csv └── README.md
引用信息
如果使用 RubricBench,请引用相关论文。
@misc{zhang2026rubricbenchaligningmodelgeneratedrubrics, title={RubricBench: Aligning Model-Generated Rubrics with Human Standards}, author={Qiyuan Zhang and Junyi Zhou and Yufei Wang and Fuyuan Lyu and Yidong Ming and Can Xu and Qingfeng Sun and Kai Zheng and Peng Kang and Xue Liu and Chen Ma}, year={2026}, eprint={2603.01562}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2603.01562}, }
相关链接
- 论文地址:https://arxiv.org/abs/2603.01562
- Hugging Face 数据集地址:https://huggingface.co/datasets/DonJoey/rubricbench
- 许可证:MIT




