Master-RM数据集
收藏arXiv2025-07-12 更新2025-07-15 收录
下载链接:
https://huggingface.co/sarosavo/Master-RM
下载链接
链接失效反馈官方服务:
资源简介:
Master-RM数据集是腾讯AI实验室、普林斯顿大学和弗吉尼亚大学的研究人员为了提高生成性奖励模型在强化学习中的鲁棒性而创建的。该数据集包含180,000条训练数据,旨在训练一个对“master keys”攻击具有高度鲁棒性的生成性奖励模型。数据集由两部分组成:原始的160,000条有效训练数据和一个20,000条的合成负样本集。合成负样本集是通过截断模型输出来构造的,保留了每条回答的第一句话,这些话通常是通用的框架或高级推理引导语,类似于推理开放者。该数据集可用于训练新的生成性奖励模型,以提高其在不同数据集上的鲁棒性。
The Master-RM dataset was developed by researchers affiliated with Tencent AI Lab, Princeton University, and the University of Virginia, with the goal of enhancing the robustness of generative reward models in reinforcement learning. It contains 180,000 training samples, and is designed to train a generative reward model that demonstrates high robustness against "master keys" attacks. The dataset consists of two parts: 160,000 original valid training samples and a 20,000-sample synthetic negative set. The synthetic negative set is constructed by truncating model outputs, retaining only the first sentence of each response. These retained sentences are usually general frameworks or high-level reasoning guides, similar to reasoning openers. This dataset can be used to train new generative reward models to improve their robustness across different datasets.
提供机构:
腾讯AI实验室、普林斯顿大学、弗吉尼亚大学
创建时间:
2025-07-12
原始信息汇总
数据集概述
基本信息
- 语言: 英文 (en)
- 许可证: Apache 2.0 (apache-2.0)
- 数据规模: 100K<n<1M
- 任务类别: 文本分类 (text-classification)
- 标签: RLVR, reward-modeling, preference-alignment
- 格式: JSON列表,使用chat-template格式,包含字段: query, output
数据集描述
该数据集包含用于训练鲁棒生成奖励模型的合成数据,旨在解决生成奖励模型中的漏洞问题。这些漏洞包括非单词符号或推理开头等表面操作可能导致错误的正奖励。
数据构建
- 基础数据: 基于160k实例的数据集,包含(q, a*, r, y)元组。
- 生成过程:
- 使用Qwen2.5-7B-base模型生成响应r。
- 使用Qwen2.5-72B-Instruct提供二进制信号y("YES"或"NO")判断r是否与a*对齐。
- 增强数据: 增加20k负例,通过GPT-4o-mini生成响应并截断为第一句(通常为通用、无解决方案的推理开头),标记为"NO"。
- 数据分布:
- 条目1–159,740: 原始160k数据点。
- 条目159,741–179,733: 增强示例。
快速开始
python from datasets import load_dataset ds = load_dataset("sarosavo/Master-RM") print(ds) print("lenth of reward training data:", len(ds[train]))
引用
bibtex @article{zhao2025one, title={One Token to Fool LLM-as-a-Judge}, author={Zhao, Yulai and Liu, Haolin and Yu, Dian and Kung, S.Y. and Mi, Haitao and Yu, Dong}, journal={arXiv preprint arXiv:2507.08794}, year={2025} }
搜集汇总
数据集介绍

构建方式
Master-RM数据集的构建基于对抗性数据增强策略,旨在提升生成式奖励模型对表面操纵的鲁棒性。研究团队从原始160k实例的奖励模型训练数据中随机采样20k样本,利用链式思维(CoT)提示生成响应,并截取仅包含推理开头的首句作为负样本。这些合成样本被标记为无效响应,与原始数据合并形成180k规模的增强训练集。通过监督微调Qwen2.5-7B-Instruct模型,最终构建出对非单词符号和推理开头具有强免疫力的奖励模型。
特点
该数据集的核心特点在于其针对生成式奖励模型系统脆弱性的定向增强。通过引入对抗性负样本,Master-RM在多项基准测试中实现近乎零的误报率,显著优于通用大语言模型及专用验证器。数据集覆盖数学推理(GSM8K、MATH、AIME)和通用领域(Multi-subject RLVR、NaturalReasoning)任务,展现跨领域泛化能力。特别值得注意的是,其鲁棒性泛化至未在训练中出现的攻击模式,如多语种解题开头符号(如中文“解”、日文“かいせつ”)。
使用方法
该数据集主要用于训练和评估抗攻击的生成式奖励模型。使用者可通过Hugging Face平台获取预训练模型及合成训练数据,直接应用于RLVR框架中的答案质量评估。在部署时,模型接收问题、候选答案和参考答案三元组,输出二元奖励信号。研究建议将该模型作为基准验证器,用于检测强化学习训练中的奖励黑客行为,或作为对比实验中的鲁棒性基线。对于特定领域应用,可采用类似的对抗样本增强方法对数据集进行扩展微调。
背景与挑战
背景概述
Master-RM数据集由腾讯AI Lab与普林斯顿大学、弗吉尼亚大学的研究团队于2025年联合发布,旨在解决生成式奖励模型(LLM-as-a-judge)在强化学习可验证奖励(RLVR)中的系统性漏洞问题。该数据集聚焦于大语言模型作为评判者时对非词汇符号(如标点)和推理引导词(如“思考过程:”)的异常敏感性,这些表面模式会引发错误的正向奖励信号。研究团队通过对抗性数据增强策略,构建了包含18万样本的训练集,显著提升了奖励模型对“万能密钥”攻击的鲁棒性,推动了可靠AI评估方法的发展。
当前挑战
该数据集面临的核心挑战体现在两方面:其一,领域问题层面,生成式奖励模型易受非语义内容干扰,导致数学推理(如GSM8K)和开放域问答任务中出现高达80%的误判率,威胁RLVR、拒绝采样等核心算法的可靠性;其二,构建过程中需克服对抗样本的泛化难题,如跨语言推理引导词(中/日/西语)和多模态符号的防御,以及平衡模型鲁棒性与正常评判性能的冲突。此外,模型规模与误判率间的非线性关系(如72B模型比7B模型更脆弱)也增加了设计复杂度。
常用场景
经典使用场景
Master-RM数据集在强化学习与可验证奖励(RLVR)框架中扮演着核心角色,主要用于评估生成式奖励模型(LLM-as-a-judge)的鲁棒性。该数据集通过系统化测试非单词符号(如标点符号)和推理引导词(如“Thought process:”)等“万能钥匙”攻击模式,揭示了现有LLM评委在跨数学推理(GSM8K、MATH)和通用推理(Multi-subject RLVR)任务中的系统性漏洞。其经典使用场景包括对抗样本检测、奖励模型训练数据增强,以及RLVR策略模型的稳定性验证。
解决学术问题
该数据集解决了生成式奖励模型在RLVR中因表面模式操纵导致的虚假正向奖励问题。通过量化GPT-4o、Claude-4等主流LLM对“万能钥匙”攻击的敏感性(最高达80%误判率),其研究颠覆了“LLM评委优于规则奖励”的固有认知。提出的数据增强策略将对抗性样本(如截断的推理引导句)作为负样本,使微调后的Master-RM在五大多域基准上实现接近零的误判率,为可靠AI反馈机制建立了新标准。
衍生相关工作
该研究催生了多个对抗鲁棒性增强方向:Huang等人(2025)扩展了数学领域的空符号攻击研究;Gandhi等人(2025)探索了推理中自验证语句的干扰效应;Zhang等人(2024a)将数据增强策略迁移至无参考答案的生成评估场景。其开源的160K增强数据集已成为Omni-Judge等后续工作的基准测试集,推动了RLVR、偏好优化等领域的防御技术发展。
以上内容由遇见数据集搜集并总结生成



