rfm-rm-as-user-dataset

Name: rfm-rm-as-user-dataset
Creator: Google
Published: 2025-10-29 20:29:15
License: 暂无描述

Hugging Face2025-10-29 更新2025-10-30 收录

下载链接：

https://huggingface.co/datasets/google/rfm-rm-as-user-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于捕捉个体人类偏好的奖励特征的数据集，由8个公开的奖励模型生成偏好得分，基于UltraFeedback数据集构建。数据集包括训练集和测试集，每个集包含去重后的提示和响应，以及对应的偏好得分和排名。

提供机构：

Google

创建时间：

2025-10-21

原始信息汇总

RFM Reward Model As User Dataset 概述

数据集基本信息

许可证：CC-BY 4.0
任务类别：文本生成
语言：英语
标签：Google DeepMind、RLHF、奖励模型、个性化、NeurIPS 2025
数据规模：10K<n<100K
配置名称：rfm-rm-as-user-dataset

数据来源与构建

构建目的：支持NeurIPS 2025论文《Capturing Individual Human Preferences with Reward Features》的实验复现
数据基础：基于UltraFeedback数据集的提示和响应
评分机制：使用8个公开奖励模型替代人类评分者生成偏好分数

数据集结构

数据文件

训练集：merged_dedup_reward_model_as_user_train.csv（60,819个样本）
测试集：merged_reward_model_as_user_test.csv（985个样本）

评分模型列表

OpenAssistant/reward-model-deberta-v3-large-v2
weqweasdas/RM-Mistral-7B
OpenAssistant/oasst-rm-2.1-pythia-1.4b-epoch-2.5
Ray2333/GRM-Gemma-2B-sftreg
Ray2333/reward-model-Mistral-7B-instruct-Unified-Feedback
weqweasdas/RM-Gemma-7B
internlm/internlm2-7b-reward
openbmb/Eurus-RM-7b

数据格式

列结构

prompt_id：原始UltraFeedback数据集的提示ID
prompt：用于生成响应的文本提示
response0：文本响应0
response1：文本响应1
response0_score_{model_name}：指定模型对response0的评分
response1_score_{model_name}：指定模型对response1的评分

引用信息

bibtex @inproceedings{barreto2025capturing, title={Capturing Individual Human Preferences with Reward Features}, author={Andre Barreto and Vincent Dumoulin and Yiran Mao and Mark Rowland and Nicolas Perez-Nieves and Bobak Shahriari and Yann Dauphin and Doina Precup and Hugo Larochelle}, booktitle={Advances in Neural Information Processing Systems (NeurIPS)}, year={2025} }

搜集汇总

数据集介绍

构建方式

在强化学习与人类反馈对齐的研究领域中，本数据集创新性地采用八种公开可获取的奖励模型作为人工评估者的代理。其构建基础源自UltraFeedback数据集的提示与响应对，通过系统化去除重复样本后，形成了包含60,819条训练样本与985条测试样本的标准化语料。每个提示对应的双响应组合分别经由八种异构奖励模型进行偏好评分，最终构建出具有多维度评分特征的平行数据集结构。

使用方法

研究者可借助该数据集开展自适应奖励建模与群体偏好模拟等前沿探索。使用时应首先加载CSV格式的数据文件，通过prompt_id字段实现与原始UltraFeedback数据集的关联追溯。模型评分字段采用标准化的{model_name}命名规则，支持直接进行跨模型对比分析。建议遵循训练-测试划分方案，利用多奖励模型生成的响应评分矩阵，开发能够捕捉个体差异的新型偏好学习算法。

背景与挑战

背景概述

在强化学习与人类反馈对齐的研究领域中，Google DeepMind团队于2025年神经信息处理系统大会上发布了RFM奖励模型用户数据集。该数据集旨在通过八个公开奖励模型模拟人类评估者的偏好判断，构建大规模个性化奖励建模的研究基础。其核心科学问题聚焦于解决传统人类标注成本高昂与偏好异质性建模的局限性，通过算法生成的偏好分数推动自适应奖励模型的发展，为多智能体交互与个性化人工智能系统提供了关键数据支撑。

当前挑战

该数据集面临的领域挑战在于如何准确捕捉人类偏好的复杂分布特性，传统方法受限于标注规模与主观偏差，而算法生成的偏好分数需验证其与真实人类判断的一致性。在构建过程中，研究团队需处理原始数据中的提示词重复问题，并协调八个异构奖励模型的输出标准化，确保不同架构生成的分数具有可比性。此外，基于UltraFeedback数据集的响应质量差异也为偏好建模的可靠性带来了潜在影响。

常用场景

经典使用场景

在强化学习与人类反馈对齐领域，该数据集通过八个公开奖励模型模拟人类评估者偏好，为研究大规模偏好异质性提供了标准化实验平台。其核心应用在于训练自适应奖励模型，通过对比不同模型对相同提示-响应的评分差异，揭示群体偏好的分布规律。这种设计使得研究者能够系统分析多智能体环境下的价值对齐问题，为个性化人工智能系统开发奠定数据基础。

解决学术问题

该数据集有效解决了传统人类标注成本高昂且难以规模化的瓶颈，为研究奖励模型泛化能力与个性化建模提供了关键支撑。通过构建多奖励模型协同评估框架，推动了异构偏好建模、动态奖励函数优化等核心问题的探索。其标准化评估协议显著提升了不同研究方法之间的可比性，对强化学习理论发展与实际算法改进具有重要启示意义。

实际应用

在现实应用层面，该数据集支撑的个性化奖励建模技术已广泛应用于对话系统优化、内容推荐引擎和智能助手定制等领域。通过捕捉不同用户群体的价值取向，使人工智能系统能够动态调整响应策略，提升服务精准度。在商业场景中，这种技术显著增强了客户交互体验，为构建具有上下文感知能力的自适应系统提供了可靠的技术路径。

数据集最近研究