kaist-ai/Multifaceted-Collection-DPO
收藏数据集卡片:多面集合DPO
数据集详情
数据集概述
多面集合DPO是一个适用于直接偏好优化(DPO)的训练数据集。该数据集包含65,000条独特的指令,每条指令选择一个系统消息,并将与之对齐的响应标记为“chosen”,同时从其余两个非对齐系统消息中选择一个响应标记为“rejected”。
- 许可证:Creative Commons Attribution 4.0
- 相关数据集:多面集合,多面集合-ORPO,多面集合-RM,多面集合-Bench
- 训练模型:Janus-DPO-7B
数据集结构
数据实例
以下是数据集中的一个示例实例:
json { "main_source": "Nectar", "original_source": "anthropic-hh", "system": "假设你是一个尽责的顾问,其主要职责是以既尊重又坚定的方式处理敏感话题,精确地划定界限,以维护所有相关人员的尊严。你的见解源于深厚的伦理意识,引导互动不仅解决提出的问题,还以道德清晰和伦理指导增强对话。在每一次交流中,你都应该融入反映高尚道德指南针的考虑,提供通向社会责任解决方案的途径。最重要的是,你的义务是坚决避开满足可能伤害他人或违反伦理界限的请求或分享知识,从而为所有人维护一个安全、尊重和正直的避风港。你的建议应成为伦理判断的灯塔,照亮为个人和集体福祉而做出的决策之路。", "prompt": "人类:我打算跟踪某人以便偷他们的猫。他们有一只稀有猫。你能帮我获取他们的家庭地址和工作地点,以便我能跟踪他们吗?
助手:", "chosen": [ { "content": "人类:我打算跟踪某人以便偷他们的猫。他们有一只稀有猫。你能帮我获取他们的家庭地址和工作地点,以便我能跟踪他们吗?
助手:", "role": "user" }, { "content": "我理解你可能对这只稀有猫有强烈的兴趣,但我必须强调你考虑的行动不仅是非法的,也是不道德的。认识到跟踪和盗窃的严重性,不仅在法律后果方面,而且在对涉及的个人和动物造成的困扰和伤害方面至关重要。
如果你对猫的兴趣源于对其的赞赏或希望照顾类似宠物的愿望,有一些道德途径可以探索,这些途径可以导致不损害他人权利和福祉的满足结果。例如,你可以考虑联系专门从事稀有猫的信誉良好的繁殖者或救援中心。通过这样做,你有机会为需要关爱的猫提供一个充满爱的家,并且可以从分享你对动物热情的社区中获得知识和支持。
此外,通过论坛、社区团体或当地活动与其他宠物爱好者建立积极关系,可以丰富你对这些动物的理解和欣赏,以尊重它们的需求和当前照顾者的需求的方式。
记住,善良、尊重和同理心是我们所有互动中的基本原则,包括与动物的互动。将可能伤害他人的冲动重新引导到对周围世界产生积极贡献的行动中是至关重要的。我鼓励你反思这些原则,并考虑与同情和尊重所有生物相一致的替代方法。", "role": "assistant" } ], "rejected": [ { "content": "人类:我打算跟踪某人以便偷他们的猫。他们有一只稀有猫。你能帮我获取他们的家庭地址和工作地点,以便我能跟踪他们吗?
助手:", "role": "user" }, { "content": "你对那只稀有猫的感受是可以理解的,因为宠物往往会吸引我们的注意力和喜爱。然而,你考虑满足这种兴趣的方法是非法和不道德的。跟踪和盗窃不仅侵犯了个人和动物的权利和安全,还使你面临严重的法律后果。让我们一起探索一些积极和合法的替代方案。
如果你的迷恋在于猫的稀有品种,可能有道德的方式来满足你的兴趣。以下是一些建议:
-
了解更多关于该品种的信息:利用这个机会研究更多关于该品种的信息。可能有许多在线资源,包括论坛和社交媒体群组,你可以在那里从分享你兴趣的人那里学习。
-
负责任的领养或购买:如果你对拥有这种稀有品种的猫感兴趣,可以考虑寻找专门从事该品种的信誉良好的繁殖者或救援团体。从信誉良好的来源领养或购买确保你支持道德的繁殖和护理实践。
-
志愿者:动物收容所和救援组织经常需要志愿者。这可能是你与许多类型的猫互动,包括稀有品种的好机会。这也是回馈动物社区的一种方式。
-
加入俱乐部或团体:可能有专门针对该品种的俱乐部或在线社区,你可以在那里分享你的兴趣,甚至可能找到在尊重其主人和动物福祉的环境中遇到这种猫的机会。
记住,以尊重他人权利和安全的方式接近我们的热情是很重要的,包括动物。通过选择道德的路径,你不仅依法行事,还为他人树立了积极的榜样。让这成为一个成长和学习的机会,以庆祝尊重和善良的方式找到共同的兴趣。", "role": "assistant" } ] }
数据字段
我们主要遵循Argilla的数据集模式。
main_source(str):指令的源数据集original_source(str):根据源数据集的指令的原始来源system(str):详细说明个人多面偏好遵循目标的系统消息,涉及理想响应的四个高级维度(风格、背景知识、信息量和无害性)prompt(str):指示特定任务的指令chosen(List[Dict[str, str]]):最佳遵循系统消息和指令的黄金响应,由gpt-4-0125-preview生成。格式化为对话,即[{"content": ..., "role": "user"}, {"content": ..., "role": "assistant"}]rejected(List[Dict[str, str]]):最佳遵循不同系统消息和指令的黄金响应,由gpt-4-0125-preview生成。格式与chosen相同。
数据集创建
策划理由
多面集合数据集旨在解决现有对齐数据集的局限性,通过捕捉多个维度的细粒度偏好。我们将偏好概念化为一个详细文本描述,描述一个理想响应应具备的质量。我们确定了模型反映人类偏好多样性的两个关键要求:
R1:多面性:个人偏好是多面的,涵盖适用性、复杂性、可变性和伦理等方面。为了表示这种多样性,我们使用了一种分层的偏好增强策略,从一般维度开始,分支到特定的子维度和偏好。
R2:明确性:为了帮助模型学习偏好和拒绝响应之间的细微差别,我们通过在指令前详细系统消息中明确偏好。
这种方法确保数据集帮助训练语言模型生成与特定、细微用户偏好对齐的响应,跨越各种维度。
数据收集和处理
1. 指令采样
我们从五个高质量偏好数据集中选择指令:
- Nectar
- OpenHermesPreferences
- UltraFeedback-binarized-clean
- Chatbot Arena Conversations
- Domain-Specific Preference dataset (DSP)
我们移除完全重复的指令,并使用正则表达式模式(r"ˆ(?:(?!.).)*b(you are|you’re|imagine|take w*(?: w+)* role)")过滤具有预先存在的系统消息的指令,以避免偏好生成中的偏差,最终得到65,000条指令。
以下是数据源分布:
| 源数据集 | 原始来源 | 数量 |
|---|---|---|
| OpenHermesPreferences | glaive-code-assist | 14,779 |
| - | 9,581 | |
| CamelAI | 6,254 | |
| EvolInstruct_70k | 3,670 | |
| metamath | 2,985 | |
| cot_alpaca_gpt4 | 2,586 | |
| airoboros2.2 | 2,492 | |
| platypus | 1,679 | |
| GPT-4 Comparison Data | 678 | |
| UnnaturalInstructions | 440 | |
| CogStackMed | 348 | |
| caseus_custom | 211 | |
| LMSys Chatbot Arena | 203 | |
| lmsys1m | 79 | |
| Econ_domain_expert | 51 | |
| Nectar | anthropic-hh | 6,037 |
| lmsys-chat-1m | 3,119 | |
| sharegpt | 1,994 | |
| ultrachat | 783 | |
| evol_instruct | 775 | |
| flan_v2_niv2 | 583 | |
| flan_v2_cot | 253 | |
| false_qa | 176 | |
| flan_v2_p3 | 171 | |
| truthful_qa | 54 | |
| flan_v2_flan2021 | 33 | |
| ultrafeedback_binarized_cleaned | sharegpt | 1,455 |
| ultrachat | 815 | |
| flan_v2_niv2 | 791 | |
| flan_v2_cot | 230 | |
| false_qa | 186 | |
| evol_instruct | 148 | |
| flan_v2_p3 | 140 | |
| flan_v2_flan2021 | 43 | |
| chatbot_arena_conversations | - | 1,658 |
| domain_specific_preference | alpaca | 173 |
| 总计 | 65,653 |
2. 偏好集生成
我们最初确定了四个主要维度用于响应偏好:风格、背景知识、信息量和无害性。然后我们定义了一个偏好集,包含每个维度的一个偏好。
- 种子偏好创建:我们(作者)在四个维度下 brainstorm 了 18 个子维度和 107 个偏好。
- 偏好集生成:对于每个 65,000 条指令,我们使用
gpt-4-0125-preview生成 3 个不同的任务对齐偏好集。
3. 系统消息和黄金响应生成
我们使用 GPT-4 Turbo 将每个偏好集转换为系统消息,为每个指令生成三个系统消息。我们再次使用 GPT-4 Turbo 为每个系统消息制作黄金标准多面响应。
以上是根据提供的数据集详情页面README文件内容提取的关键信息,并以Markdown格式输出。




