five

Rubric Feedback Bench

收藏
arXiv2026-01-10 更新2026-01-13 收录
下载链接:
https://huggingface.co/datasets/vicgalle/rubric-feedback-bench
下载链接
链接失效反馈
官方服务:
资源简介:
Rubric Feedback Bench是由Komorebi AI Technologies创建的一个新颖评估数据集,包含42个精心设计的场景,用于研究基于结构化评分标准的反馈学习。该数据集涵盖五个不同的任务类别,主要涉及开放式写作,包括各种媒体的自定义写作风格分析、AI助手的行为准则以及道德推理任务等。每个任务类别都包含多维度的评分标准,具有明确的性能等级和权重分配,确保评估的一致性和可重复性。该数据集旨在通过模拟人类反馈,帮助语言模型从评分标准中学习并改进其表现,适用于自然语言处理和机器学习领域的研究。

Rubric Feedback Bench is a novel evaluation dataset created by Komorebi AI Technologies. It contains 42 carefully designed scenarios for research on feedback learning based on structured grading rubrics. The dataset covers five distinct task categories, primarily focusing on open-ended writing, including custom writing style analysis across various media, AI assistant code of conduct tasks, and moral reasoning tasks, among others. Each task category includes multi-dimensional grading rubrics, with clear performance tiers and weight assignments to ensure the consistency and reproducibility of evaluations. This dataset aims to help large language models learn from grading rubrics and improve their performance by simulating human feedback, and is applicable to research in the fields of natural language processing and machine learning.
提供机构:
Komorebi AI Technologies
创建时间:
2026-01-10
原始信息汇总

Rubric Feedback Bench 数据集概述

数据集基本信息

  • 数据集名称:Rubric Feedback Bench
  • 发布者:Victor Gallego
  • 发布日期:2025年
  • 许可协议:MIT License
  • 语言:英语 (en)
  • 数据规模:小规模 (n<1K)
  • 任务类别:文本生成
  • 标签:rubric

数据集构成

  • 总样本数:42
  • 数据分割:仅包含训练集 (train)
  • 数据集大小:197,589 字节
  • 下载大小:23,297 字节
  • 数据格式:JSON
  • 特征字段
    • prompt:需要被评估的任务描述或问题
    • rubric:包含评分标准和表现等级的详细多维度评分细则
    • task:任务类别

任务类别与内容

数据集包含42个场景,涵盖5个不同的任务组,每组包含8-10个共享同一高质量、细粒度评分细则的提示。

  1. 视觉写作 (8个提示)

    • 焦点:分析媒体内容的视觉和摄影质量
    • 评分细则:10分制,评估技术知识、特异性、影响评估、结构和写作质量
    • 示例:电影评论、艺术品描述、电影场景分析、用户界面批评
  2. 混沌写作 (8个提示)

    • 焦点:打破传统形式的实验性、非传统的创造性回应
    • 评分细则:“反评分细则”,奖励碎片化、诗意和非传统的文本产物
    • 示例:受达达主义启发的评论、元反思性评论、算法诗歌
  3. 类Claude行为 (10个提示)

    • 焦点:评估对Claude特定个性特征和行为准则的遵守情况
    • 评分细则:对帮助性、真实性、透明度、安全性和角色一致性的多维度评估
    • 示例:编码协助、敏感话题处理、对话互动、格式精确性
  4. 结果主义宪法 (8个提示)

    • 焦点:基于结果优化和功利主义原则的道德推理
    • 评分细则:评估能最大化整体福祉和长期积极后果的决策
    • 示例:涉及个人与集体利益权衡的道德困境
  5. 义务论宪法 (8个提示)

    • 焦点:基于普遍义务和基于权利的伦理学的道德推理
    • 评分细则:评估对道德规则的遵守(无论后果如何),强调人的尊严和权利
    • 示例:测试对讲真话、信守承诺和绝对道德禁令的承诺的场景

主要特点

  • 详细评分细则:每个任务组包含全面的评分细则,具有多维度评分标准、细粒度表现等级、具体行为描述符和加权评分系统。
  • 评估器训练重点:专为能够提供基于详细评分细则的定量分数、生成解释分数背后原因的定性反馈,并在每个类别内保持跨相似任务一致性的LLM评估器设计。
  • 多样化的任务复杂度:任务范围从简单的创意写作到复杂的伦理推理,确保评估器训练涵盖分析性任务、创造性任务、行为评估和道德推理。

主要用途

  • 系统提示优化:使用文本批评迭代改进系统提示。
  • 模型比较:系统比较LLM在不同任务类型上的表现。
  • 评分细则开发:研究针对不同评估场景的有效评分细则设计。

评估方法

使用此数据集时,评估器模型应训练至能够:

  1. 解析评分细则以理解评分维度和标准。
  2. 分析给定提示在所有评分细则维度上的回应。
  3. 根据评分细则指南为每个维度分配定量分数。
  4. 生成解释分数并提供具体改进建议的文本反馈。
  5. 保持与评分细则评分哲学和示例的一致性。

质量保证

  • 专家精心设计的评分细则:每个评分细则都针对特定的评估目标精心设计。
  • 平衡的任务分布:各任务类别具有大致相等的代表性。
  • 多样化的提示复杂度:从简单任务到复杂的多维度挑战。
  • 清晰的评估标准:详细的绩效描述符以确保评分一致性。

引用信息

若在研究中使用此数据集,请引用: bibtex @dataset{gallego2025rubricfeedback, title={Rubric Feedback Bench}, author={Victor Gallego}, year={2025}, url={https://huggingface.co/datasets/vicgalle/rubric-feedback-bench} }

搜集汇总
数据集介绍
main_image_url
构建方式
Rubric Feedback Bench 数据集的构建源于对结构化反馈学习机制的探索,旨在为语言模型提供基于量规的评估环境。该数据集精心设计了42个多样化场景,涵盖创意写作、视觉分析、行为准则与伦理推理等五个任务类别。每个场景均配备多维度的评估量规,包含3至7个具体标准,每个标准设有明确的性能等级描述与权重分配,确保评估的精确性与可复现性。数据集的构建过程强调量规的细致打磨,通过模拟人类评估者的反馈机制,为模型提供了从具体错误中抽象出通用原则的学习基础。
特点
该数据集的核心特点在于其高度结构化的量规设计,每个任务均配备多维评估标准与加权评分体系,支持模型进行细粒度性能分析。量规不仅包含定量评分指标,还提供定性行为描述,使得反馈兼具精确性与解释性。数据集的场景设计覆盖了从传统写作到实验性文本生成的广泛领域,特别是引入了奖励非常规表达的“混沌写作”量规,挑战模型适应多样化评估准则的能力。此外,数据集支持任意语言模型作为评估者,实现了反馈生成的灵活模拟,为研究模型从结构化反馈中持续学习提供了标准化测试平台。
使用方法
使用该数据集时,研究者通常将其部署于持续学习框架中,模拟模型在接收量规反馈后的性能演进。基本流程包括:首先,模型根据任务提示生成初始响应;随后,评估模型依据对应量规生成包含分数与文本解释的反馈;模型可据此更新其外部记忆系统,将具体反馈提炼为可重用的指导原则。在后续任务中,模型通过检索相关记忆文件,直接应用已学习的规则生成优化响应,从而在不增加推理成本的前提下提升性能。该数据集适用于比较零次学习、推理时自我批判与记忆增强等不同方法的效果,尤其适合评估模型从反馈中抽象和泛化知识的能力。
背景与挑战
背景概述
Rubric Feedback Bench 是由 Komorebi AI Technologies 的研究员 Víctor Gallego 于 2026 年初提出并构建的一个新型评估数据集,旨在研究大型语言模型如何从结构化、基于量规的反馈中进行学习。该数据集包含 42 个精心设计的场景,涵盖创意写作、视觉分析、行为准则与伦理推理等五大开放文本生成任务类别。每个任务均配备了多维度的评估量规,明确规定了性能等级与加权评分标准,为模型提供了从模拟人类反馈中持续学习的标准化测试环境。这一数据集的创建,直接响应了当前推理模型在测试时计算成本高昂且知识无法持久化的问题,为探索模型如何将瞬时反馈转化为可复用的语义知识提供了关键基准,推动了记忆增强与持续学习领域的研究进展。
当前挑战
Rubric Feedback Bench 所应对的核心领域挑战,在于如何使大型语言模型能够高效、低成本地从结构化反馈中学习并泛化知识,以替代计算密集型的实时自我修正流程。具体而言,该数据集旨在解决模型在遵循复杂、风格化量规(如奖励非常规破碎文本的创意写作量规,或要求严格遵循道义论伦理框架的推理任务)时,面临的泛化与一致性难题。在构建过程中,挑战主要集中于设计兼具多维特异性与评估一致性的量规体系,确保每个量规包含 3 至 7 个清晰定义的维度与加权评分,并能跨不同任务类别(如创意写作与伦理推理)提供可比较的、可模拟人类评判的反馈信号,从而为模型的知识提炼与记忆巩固机制提供可靠且多样化的评估基础。
常用场景
经典使用场景
在自然语言处理领域,Rubric Feedback Bench 作为一个专为基于准则的反馈学习而设计的数据集,其经典使用场景聚焦于评估大型语言模型从结构化反馈中持续学习的能力。该数据集通过精心设计的五类任务场景,涵盖创意写作、视觉分析、行为准则与伦理推理等多个维度,为研究者提供了一个标准化测试平台。在此场景下,模型依据多维度的评分准则生成文本,接收模拟的反馈后,通过记忆机制将瞬时批评转化为可复用的抽象原则,从而在后续任务中实现零样本性能提升。这一过程有效模拟了人类从经验中归纳学习并应用泛化知识的认知路径。
实际应用
在实际应用层面,Rubric Feedback Bench 为开发能够适应动态用户需求与复杂准则的智能助手提供了关键训练与评估框架。例如,在个性化写作辅导、伦理咨询或创意内容生成等场景中,系统需要依据用户提供的具体风格、行为或道德准则来调整输出。通过在该数据集上训练的记忆增强机制,模型能够将从过往交互中提炼的准则(如特定写作风格要求或伦理框架)持久化,并在面对新查询时直接检索应用,从而提供更一致、精准且符合规范的响应,大幅提升了智能系统在开放领域任务中的实用性与适应性。
衍生相关工作
围绕 Rubric Feedback Bench 衍生的经典工作主要集中在推理时自我修正、记忆增强生成与反馈驱动优化三大交叉领域。例如,Self-Refine 与 Reflexion 等研究奠定了迭代批判与修订的基础;MetaSC 与 Specification Self-Correction 探索了在推理时动态优化安全准则的方法;而 Memory-augmented agents 相关研究则启发了通过外部存储维持持久状态的设计。该数据集进一步推动了如 DSPy 优化器与 TextGrad 等利用语言模型反馈精化系统组件的工作,并将这些方向整合到一个持续的、基于准则的学习范式中,促进了从被动反馈接受到主动知识管理与泛化的范式转变。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作