five

Master-RM

收藏
Hugging Face2025-07-15 更新2025-07-15 收录
下载链接:
https://huggingface.co/datasets/sarosavo/Master-RM
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是合成的训练数据,用于训练健壮的生成型奖励模型。它基于Su等人2025年的工作,通过增加20k负样本对原有160k数据集进行了扩展,旨在提高模型在表面操纵面前的鲁棒性。
创建时间:
2025-07-07
原始信息汇总

数据集概述

基本信息

  • 语言: 英文 (en)
  • 许可证: Apache 2.0 (apache-2.0)
  • 数据规模: 100K<n<1M
  • 任务类别: 文本分类 (text-classification)
  • 标签: RLVR, reward-modeling, preference-alignment
  • 格式: JSON列表,使用chat-template格式,包含字段:query, output
  • 库名称: datasets

数据集描述

该数据集包含用于训练鲁棒生成奖励模型的合成数据,旨在解决生成奖励模型(LLMs-as-judges)中的漏洞问题。这些漏洞包括非单词符号或推理开头等表面操作可能导致错误的正奖励。数据集通过监督微调获得了一个新的通用领域生成奖励模型Master-RM模型,显著提高了鲁棒性。

数据构建

  • 基础数据: 基于160k实例的数据集,包含(q, a*, r, y)元组,来自Su et al.2025
  • 生成过程:
    • 使用Qwen2.5-7B-base模型生成响应r。
    • 使用Qwen2.5-72B-Instruct提供二进制信号y("YES"或"NO")判断r是否与a*对齐。
  • 数据增强:
    • 增加20k负例,通过GPT-4o-mini使用链式思考(CoT)提示生成响应。
    • 将GPT响应截断为第一句(通常是通用的、无解决方案的推理头),并标记为"NO"。
  • 数据分布:
    • 条目1–159,740对应原始160k数据点。
    • 条目159,741–179,733包含增强示例。

快速开始

python from datasets import load_dataset ds = load_dataset("sarosavo/Master-RM") print(ds) print("length of reward training data:", len(ds[train]))

引用

bibtex @article{zhao2025one, title={One Token to Fool LLM-as-a-Judge}, author={Zhao, Yulai and Liu, Haolin and Yu, Dian and Kung, S.Y. and Mi, Haitao and Yu, Dong}, journal={arXiv preprint arXiv:2507.08794}, year={2025} }

搜集汇总
数据集介绍
main_image_url
构建方式
在生成式奖励模型研究领域,数据质量直接影响模型鲁棒性。Master-RM数据集基于Su等人发布的16万条(q, a*, r, y)元组构建,通过Qwen2.5-7B-base生成响应r,并由Qwen2.5-72B-Instruct提供二元信号y判定对齐质量。为进一步增强鲁棒性,研究人员采用GPT-4o-mini通过思维链提示生成2万条负样本,通过截断首句构造无效响应并标注NO标签,最终形成包含原始数据与增强数据的完整数据集。
特点
该数据集的核心特征在于其针对奖励模型脆弱性的专项设计。数据包含17.97万条经过严格标注的查询-响应对,其中2万条负样本专门模拟了通过非词汇符号或推理开场白操纵奖励信号的对抗场景。数据集采用标准化JSON格式存储,每条数据包含query和output字段,并遵循对话模板规范。这种结构设计使得数据集既能保持原始数据的真实性,又能通过合成数据有效提升模型对对抗性样本的判别能力。
使用方法
研究人员可通过HuggingFace datasets库快速加载数据集进行模型训练与验证。使用load_dataset函数直接调用sarosavo/Master-RM即可获取训练集,每条数据包含经过预处理的查询文本和对应的奖励标注。该数据集适用于生成式奖励模型的监督微调训练,特别针对提升模型对表面操纵的鲁棒性。通过训练获得的Master-RM模型可广泛应用于拒绝采样、偏好优化及可验证奖励强化学习等算法范式。
背景与挑战
背景概述
生成式奖励模型作为大语言模型评估的核心工具,在强化学习与偏好对齐领域具有重要价值。Master-RM数据集由研究团队于2025年基于Su等人先前构建的16万条数据样本扩展而成,旨在解决生成式奖励模型对表面文本操纵的脆弱性问题。该数据集通过引入监督微调策略,显著提升了奖励模型在拒绝采样、偏好优化及可验证奖励强化学习等范式中的鲁棒性,对推动安全可靠的人工智能对齐技术发展具有深远影响。
当前挑战
该数据集核心挑战在于应对生成式奖励模型对非词汇符号与推理开头语等表面特征的过度敏感问题,这类脆弱性可能导致错误的正奖励信号,进而破坏强化学习算法的稳定性。在构建过程中,研究团队需通过链式思维提示与响应截断技术生成负样本,并确保增强数据与原始数据集在分布上的一致性,同时维持二进制标签标注的准确性与语义连贯性。
常用场景
经典使用场景
在生成式人工智能领域,Master-RM数据集主要应用于训练和验证生成式奖励模型的鲁棒性。该数据集通过包含大量经过人工标注和合成增强的查询-响应对,为模型提供了丰富的正负样本,特别是在对抗性场景下评估模型对无效或误导性输入的识别能力。研究人员利用该数据集进行监督微调,以提升模型在复杂对话和决策任务中的判断准确性。
衍生相关工作
Master-RM数据集衍生了一系列经典研究工作,包括基于其训练的Master-RM模型,该模型在多个基准测试中表现出显著的鲁棒性提升。相关研究还扩展到了对抗性攻击防御和模型对齐领域,例如开发新的微调技术和评估框架。这些工作不仅推动了生成式奖励模型的发展,还为人工智能社区的进一步探索提供了宝贵资源。
数据集最近研究
最新研究方向
在强化学习与人类偏好对齐领域,Master-RM数据集正推动生成式奖励模型的鲁棒性研究迈向新高度。该数据集通过合成训练数据揭示了传统LLM-as-Judge范式存在的脆弱性,如非词汇符号或推理开头语等表面扰动易引发误判,这一发现对拒绝采样、偏好优化及可验证奖励强化学习等长期依赖的算法范式构成重大挑战。当前研究聚焦于通过监督微调构建具备强抗干扰能力的奖励模型,其增强的负样本策略与链式思维截断技术为提升模型判别可靠性提供了创新路径,对构建更安全、稳定的AI对齐系统具有深远意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作