five

Hummer|偏好数据集数据集|AI对齐优化数据集

收藏
arXiv2024-05-21 更新2024-08-06 收录
偏好数据集
AI对齐优化
下载链接:
http://arxiv.org/abs/2405.11647v2
下载链接
链接失效反馈
资源简介:
Hummer是一个创新的成对偏好数据集,旨在减少对齐目标之间的竞争。该数据集基于UltraFeedback构建,并通过GPT-4的AI反馈进行了增强,成为首个旨在减少对齐目标间竞争的偏好数据集。Hummer通过三阶段过程构建:偏好与目标标注、对齐目标细化及数据集分割。数据集的应用领域包括特定领域的进一步微调和减少对攻击的脆弱性,旨在通过优先考虑某些对齐目标而不牺牲其他目标的性能来解决特定问题。
提供机构:
麦吉尔大学, 北京大学, 蚂蚁集团
创建时间:
2024-05-20
AI搜集汇总
数据集介绍
main_image_url
构建方式
Hummer数据集的构建基于UltraFeedback数据集,并通过GPT-4的AI反馈进行了增强。构建过程分为三个阶段:偏好与目标标注、对齐目标精炼和数据集分割。首先,从UltraFeedback中随机选择400对偏好数据,并使用GPT-4进行标注,确定每对数据中的偏好选项及其对齐目标。接着,GPT-4进一步精炼这些对齐目标,减少它们之间的冲突,并最终将数据集按照最大偏好差距原则分割到不同的对齐目标维度中。
特点
Hummer数据集的主要特点在于其减少了不同对齐目标之间的竞争冲突。通过引入新的统计度量——对齐维度冲突(ADC),Hummer能够量化并减少偏好数据集中的冲突程度。此外,Hummer还开发了混合采样策略,用于训练奖励模型,以平衡不同对齐目标的表现,从而提高模型对下游任务的适应性和对攻击的抵抗力。
使用方法
Hummer数据集适用于需要将人类偏好整合到预训练语言模型中的各种任务,特别是在强化学习从人类反馈(RLHF)中。用户可以通过训练奖励模型(如HummerRM和HummerRM-F)来利用该数据集,这些模型采用混合采样策略,能够在不同对齐目标之间实现平衡。此外,Hummer数据集还可用于进一步微调领域特定的模型,以在不牺牲其他对齐目标性能的情况下优先考虑某些对齐目标。
背景与挑战
背景概述
Hummer数据集由McGill University、Peking University和Ant Group的研究人员于2024年创建,旨在解决现有偏好数据集中对齐目标之间的冲突问题。该数据集通过引入新的统计度量——对齐维度冲突(ADC),量化偏好数据集中的冲突程度,并提出Hummer及其细粒度变体Hummer-F,以减少对齐目标之间的竞争。Hummer数据集基于UltraFeedback构建,并通过GPT-4的AI反馈进行增强,标志着首个旨在减少对齐目标竞争的偏好数据集。该数据集的开发对于将人类偏好整合到预训练语言模型中,特别是在人类反馈强化学习(RLHF)领域,具有重要意义。
当前挑战
Hummer数据集面临的挑战主要在于解决现有偏好数据集中对齐目标之间的冲突问题。这种冲突不仅增加了模型对越狱攻击的脆弱性,还使得在下游任务中难以在不损害其他对齐目标的情况下优先考虑特定对齐目标。构建过程中,研究人员需要克服如何有效量化和减少对齐目标之间的冲突,以及如何在数据集构建中引入AI反馈以增强数据质量。此外,如何在训练奖励模型时平衡多个对齐目标,同时提高模型对越狱攻击的抵抗力,也是该数据集需要解决的重要问题。
常用场景
经典使用场景
Hummer数据集在强化学习从人类反馈(RLHF)中扮演着关键角色,特别是在将人类偏好整合到预训练语言模型中。其经典使用场景包括构建显式或隐式的奖励模型,通过这些模型,可以有效地平衡多种对齐目标,从而提升模型的整体性能和安全性。
衍生相关工作
Hummer数据集的成功催生了一系列相关研究工作,包括开发新的奖励模型、改进的采样策略以及对齐目标的进一步优化。例如,HummerRM和HummerRM-F的混合采样策略已被应用于多个领域,显著提升了模型的性能和鲁棒性。此外,ADC度量的引入也为其他偏好数据集的设计和优化提供了新的思路。
数据集最近研究
最新研究方向
在强化学习与人类反馈(RLHF)领域,Hummer数据集的最新研究方向聚焦于解决偏好数据集中对齐目标之间的冲突问题。研究者们引入了一种新的统计度量——对齐维度冲突(ADC),以量化偏好数据集中的冲突程度。Hummer数据集及其细粒度变体Hummer-F通过减少对齐目标之间的竞争性,成为首个旨在缓解这一问题的偏好数据集。此外,研究还开发了奖励模型HummerRM和HummerRM-F,采用混合采样策略,有效平衡了不同对齐目标的表现,增强了模型对攻击的防御能力,并支持下游任务的进一步微调。这些研究不仅提升了数据集的质量,还为领域特定的应用提供了更强的适应性和安全性。
相关研究论文
  • 1
    Hummer: Towards Limited Competitive Preference Dataset麦吉尔大学, 北京大学, 蚂蚁集团 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

giovannidemuri__sharegpt-ex50000-seed5_llama8b-er-v573-seed2-hx_256_ngt0.7_tp0.9

该数据集包含了用户与助手之间的对话,其中包含两个字段:用户发言和助手回应,均为字符串类型。训练集大小为38646852字节,共有44096条对话记录。

huggingface 收录

中国近海台风路径集合数据集(1945-2024)

1945-2024年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。 数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据,经过处理整合后形成文件,如使用csv文件需使用文本编辑器打开浏览,否则会出现乱码,如要使用excel查看数据,请使用xlsx的格式。

国家海洋科学数据中心 收录

WideIRSTD Dataset

WideIRSTD数据集包含七个公开数据集:SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV,以及由国防科技大学团队开发的数据集,包括模拟陆基和太空基数据,以及真实手动标注的太空基数据。数据集包含具有各种目标形状(如点目标、斑点目标、扩展目标)、波长(如近红外、短波红外和热红外)、图像分辨率(如256、512、1024、3200等)的图像,以及不同的成像系统(如陆基、空基和太空基成像系统)。

github 收录

PlantVillage

在这个数据集中,39 种不同类别的植物叶子和背景图像可用。包含 61,486 张图像的数据集。我们使用了六种不同的增强技术来增加数据集的大小。这些技术是图像翻转、伽玛校正、噪声注入、PCA 颜色增强、旋转和缩放。

OpenDataLab 收录

DIOR

“DIOR” 是用于光学遥感图像中对象检测的大规模基准数据集,该数据集由23,463图像和带有水平边界框注释的192,518对象实例组成。

OpenDataLab 收录