five

World Preference Modeling (WorldPM)

收藏
arXiv2025-05-16 更新2025-05-17 收录
下载链接:
https://github.com/QwenLM/WorldPM
下载链接
链接失效反馈
资源简介:
World Preference Modeling (WorldPM) 是一个从公共论坛收集偏好数据的规模化的偏好模型,旨在通过扩展定律来建立一个统一的偏好表示。数据集从StackExchange、Reddit和Quora等多个公共论坛收集了15M个训练样本,用于训练参数从1.5B到72B的语言模型。该数据集通过多种基准测试进行了评估,显示出在对抗性指标和客观指标上的显著提升,而在主观指标上没有明显的扩展趋势。WorldPM 作为偏好微调的基础模型,在多个基准测试中显著提高了泛化性能,并在内部和公开评估集上实现了显著的改进。
提供机构:
复旦大学可信具身人工智能研究院, 复旦大学计算机科学学院, 阿里巴巴集团Qwen团队
创建时间:
2025-05-16
原始信息汇总

WorldPM 数据集概述

📚 数据集简介

  • 名称: WorldPM (World Preference Modeling)
  • 研究论文: WorldPM:Scaling Human Preference Modeling
  • 核心发现: 揭示了偏好建模与语言建模相似的缩放定律,通过15M偏好数据的大规模训练,实现了统一的偏好表征学习。

🔍 关键发现

  1. 对抗性评估:

    • 测试损失呈现幂律下降
    • 模型增强了对故意错误回答和无关/不完整回答的识别能力
  2. 客观指标:

    • 出现涌现现象
    • 更大模型在更多基准测试中展示幂律下降
  3. 主观评估:

    • 未显示明显缩放趋势
    • 分析归因于风格偏好的多维度特性

🎯 模型使用

基础模型

微调版本

模型 数据集 训练规模
WorldPM-72B-HelpSteer2 HelpSteer2 7K
WorldPM-72B-UltraFeedback UltraFeedback 100K
WorldPM-72B-RLHFLow RLHFLow 800K

🛠️ 技术要求

📝 引用格式

bibtex @article{WorldPM, title={WorldPM:Scaling Human Preference Modeling}, author={Binghai Wang et al.}, journal={arXiv preprint arXiv:2505.10527}, year={2025} }

🤝 社区支持

  • GitHub Issues: 问题报告/功能请求
  • GitHub Discussions: 讨论区
  • 作者邮箱: refrain.wbh@gmail.com
AI搜集汇总
数据集介绍
main_image_url
构建方式
World Preference Modeling (WorldPM) 数据集通过系统性地收集公共论坛(如StackExchange、Reddit和Quora)中的用户偏好数据构建而成。研究团队首先从这些平台的投票机制中提取了约1500万条偏好对,其中每个偏好对由同一帖子的两个不同回复及其对应的净投票数(赞成票减去反对票)组成。为确保数据质量,团队对StackExchange的数据进行了重点筛选,因其展现出最佳的跨领域泛化能力。数据构建过程中采用了严格的采样策略,包括控制投票差异阈值,并通过线性层替换语言模型最后解码层的方式,基于Bradley-Terry模型计算奖励分数,最终形成覆盖1.5B至72B参数规模模型的训练体系。
特点
WorldPM数据集的核心特点体现在其多维度评估体系与显著的规模效应上。该数据集通过12个测试集系统评估模型的对抗性(识别含故意错误的回复)、客观性(针对有明确答案的查询)和主观性(人类或AI的开放偏好)能力。研究发现:对抗性指标随训练数据和基础模型规模呈幂律提升;客观指标在大型语言模型中呈现涌现行为;而主观指标则未显示规模效应。特别值得注意的是,数据集通过StackExchange的数学板块验证了人类偏好的跨领域迁移性,即使专业领域数据也能有效泛化至通用偏好评估。
使用方法
WorldPM数据集主要应用于偏好模型的预训练与微调阶段。使用者可基于该数据集初始化奖励模型,通过最小化Bradley-Terry损失函数进行偏好建模训练。在微调阶段,建议采用10K批量大小和3e-6学习率的稳定配置,并配合Group Relative Policy Optimization (GRPO)等强化学习算法进行策略优化。评估时需区分不同测试集特性:对抗性评估推荐使用RM-Bench的聊天域测试集,客观评估建议结合MBPP-Plus和MATH数据集,主观评估则需配合风格控制技术以消除文本长度等干扰因素。数据集还可集成至Best-of-N采样流程,通过生成256个候选响应并选择奖励分数最高的输出进行模型对齐。
背景与挑战
背景概述
World Preference Modeling (WorldPM) 是由阿里巴巴集团Qwen团队与复旦大学可信人工智能研究所于2025年联合提出的创新性数据集,旨在探索人类偏好建模中的扩展规律。该研究受语言模型规模定律启发,发现偏好建模同样存在模型规模与数据量间的幂律关系。数据集收集自StackExchange、Reddit等公共论坛的15M规模用户投票数据,覆盖1.5B至72B参数模型的训练验证。其核心突破在于首次系统论证了对抗性指标(识别欺骗特征)和客观指标(确定性知识)随规模增长的持续优化趋势,同时揭示了主观偏好评估存在的风格偏好瓶颈。WorldPM作为强化学习人类反馈(RLHF)的基础预训练框架,在7项基准测试中展现出超过5%的性能提升,显著推动了对齐技术的可扩展性研究。
当前挑战
该数据集面临三重核心挑战:在领域问题层面,主观偏好评估存在风格偏差(如对长文本或Markdown格式的隐性偏好),导致模型规模扩大时评估指标失真;构建过程中需解决论坛数据固有噪声(如低质量投票、领域分布不均衡)与跨平台偏好一致性难题;方法论上需平衡规模扩展带来的客观能力提升与主观偏好评估的不可扩展性矛盾。特别地,StackExchange数据虽展现优质跨领域泛化能力,但其专业社区特性导致构建通用偏好表征时需克服领域迁移障碍。此外,安全评估中伪有害查询与真实有害内容的判别差异,进一步增加了偏好建模的复杂度。
常用场景
经典使用场景
WorldPM数据集在人类偏好建模领域具有广泛的应用场景,特别是在大规模语言模型的偏好微调中表现出色。该数据集通过收集来自StackExchange、Reddit和Quora等公共论坛的用户偏好数据,构建了一个统一的偏好表示框架。在经典使用场景中,研究人员利用WorldPM进行对抗性评估、客观知识评估和主观偏好评估,验证模型在不同领域的泛化能力。特别是在对抗性评估中,WorldPM能够有效识别含有故意错误的回答,展现出强大的鲁棒性。
解决学术问题
WorldPM数据集解决了人类偏好建模中的多个关键学术问题。首先,它验证了偏好建模中的扩展定律,证明了模型性能和训练数据量之间存在幂律关系。其次,该数据集揭示了不同评估指标下的独特模式:对抗性指标随训练数据和模型规模的增加而持续提升,客观指标在大型语言模型中表现出涌现行为,而主观指标则未显示出明显的扩展趋势。这些发现为理解人类偏好建模的底层机制提供了重要见解,并为后续研究奠定了理论基础。
衍生相关工作
WorldPM数据集催生了一系列相关研究工作,特别是在偏好模型预训练(PMP)领域。该工作扩展了Askelletal.(2021)提出的PMP框架,首次系统探索了大规模偏好训练的扩展特性。基于WorldPM的研究还衍生出关于风格偏好分析的深入探讨,提出了风格-内容分离评估方法。此外,该数据集为GroupRelativePolicyOptimization(GRPO)等新型强化学习算法的开发提供了重要基准,推动了人类偏好建模领域的算法创新。
以上内容由AI搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作