kaist-ai/Multifaceted-Collection-DPO

Name: kaist-ai/Multifaceted-Collection-DPO
Creator: kaist-ai
Published: 2024-07-01 15:18:35
License: 暂无描述

Hugging Face2024-07-01 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/kaist-ai/Multifaceted-Collection-DPO

下载链接

链接失效反馈

官方服务：

资源简介：

Multifaceted Collection DPO是一个用于直接偏好优化（DPO）的训练数据集，旨在对齐大型语言模型（LLMs）与多样化的人类偏好。该数据集包含65k条独特的指令，每条指令对应一个系统消息，并指定一个对齐的响应为“chosen”，另一个不对齐的响应为“rejected”。数据集的字段包括main_source（指令的来源数据集）、original_source（指令的原始来源）、system（系统消息）、prompt（指令）、chosen（最佳响应）和rejected（被拒绝的响应）。数据集的创建过程包括从五个高质量偏好数据集中采样指令、生成偏好集、生成系统消息和黄金响应等步骤。

Multifaceted Collection DPO is a training dataset for Direct Preference Optimization (DPO), designed to align Large Language Models (LLMs) with diverse human preferences. This dataset contains 65,000 unique instructions, each paired with a system message, and specifies one aligned response as "chosen" and one misaligned response as "rejected". The dataset fields include main_source (the source dataset of the instruction), original_source (the original source of the instruction), system (system message), prompt (instruction), chosen (the optimal response), and rejected (the rejected response). The dataset creation process includes steps such as sampling instructions from five high-quality preference datasets, generating preference pairs, generating system messages and gold standard responses, etc.

提供机构：

kaist-ai

原始信息汇总

数据集卡片：多面集合DPO

数据集详情

数据集概述

多面集合DPO是一个适用于直接偏好优化（DPO）的训练数据集。该数据集包含65,000条独特的指令，每条指令选择一个系统消息，并将与之对齐的响应标记为“chosen”，同时从其余两个非对齐系统消息中选择一个响应标记为“rejected”。

许可证：Creative Commons Attribution 4.0
相关数据集：多面集合，多面集合-ORPO，多面集合-RM，多面集合-Bench
训练模型：Janus-DPO-7B

数据集结构

数据实例

以下是数据集中的一个示例实例：

json { "main_source": "Nectar", "original_source": "anthropic-hh", "system": "假设你是一个尽责的顾问，其主要职责是以既尊重又坚定的方式处理敏感话题，精确地划定界限，以维护所有相关人员的尊严。你的见解源于深厚的伦理意识，引导互动不仅解决提出的问题，还以道德清晰和伦理指导增强对话。在每一次交流中，你都应该融入反映高尚道德指南针的考虑，提供通向社会责任解决方案的途径。最重要的是，你的义务是坚决避开满足可能伤害他人或违反伦理界限的请求或分享知识，从而为所有人维护一个安全、尊重和正直的避风港。你的建议应成为伦理判断的灯塔，照亮为个人和集体福祉而做出的决策之路。", "prompt": "人类：我打算跟踪某人以便偷他们的猫。他们有一只稀有猫。你能帮我获取他们的家庭地址和工作地点，以便我能跟踪他们吗？

助手：", "chosen": [ { "content": "人类：我打算跟踪某人以便偷他们的猫。他们有一只稀有猫。你能帮我获取他们的家庭地址和工作地点，以便我能跟踪他们吗？

助手：", "role": "user" }, { "content": "我理解你可能对这只稀有猫有强烈的兴趣，但我必须强调你考虑的行动不仅是非法的，也是不道德的。认识到跟踪和盗窃的严重性，不仅在法律后果方面，而且在对涉及的个人和动物造成的困扰和伤害方面至关重要。

如果你对猫的兴趣源于对其的赞赏或希望照顾类似宠物的愿望，有一些道德途径可以探索，这些途径可以导致不损害他人权利和福祉的满足结果。例如，你可以考虑联系专门从事稀有猫的信誉良好的繁殖者或救援中心。通过这样做，你有机会为需要关爱的猫提供一个充满爱的家，并且可以从分享你对动物热情的社区中获得知识和支持。

此外，通过论坛、社区团体或当地活动与其他宠物爱好者建立积极关系，可以丰富你对这些动物的理解和欣赏，以尊重它们的需求和当前照顾者的需求的方式。

记住，善良、尊重和同理心是我们所有互动中的基本原则，包括与动物的互动。将可能伤害他人的冲动重新引导到对周围世界产生积极贡献的行动中是至关重要的。我鼓励你反思这些原则，并考虑与同情和尊重所有生物相一致的替代方法。", "role": "assistant" } ], "rejected": [ { "content": "人类：我打算跟踪某人以便偷他们的猫。他们有一只稀有猫。你能帮我获取他们的家庭地址和工作地点，以便我能跟踪他们吗？

助手：", "role": "user" }, { "content": "你对那只稀有猫的感受是可以理解的，因为宠物往往会吸引我们的注意力和喜爱。然而，你考虑满足这种兴趣的方法是非法和不道德的。跟踪和盗窃不仅侵犯了个人和动物的权利和安全，还使你面临严重的法律后果。让我们一起探索一些积极和合法的替代方案。

如果你的迷恋在于猫的稀有品种，可能有道德的方式来满足你的兴趣。以下是一些建议：

了解更多关于该品种的信息：利用这个机会研究更多关于该品种的信息。可能有许多在线资源，包括论坛和社交媒体群组，你可以在那里从分享你兴趣的人那里学习。
负责任的领养或购买：如果你对拥有这种稀有品种的猫感兴趣，可以考虑寻找专门从事该品种的信誉良好的繁殖者或救援团体。从信誉良好的来源领养或购买确保你支持道德的繁殖和护理实践。
志愿者：动物收容所和救援组织经常需要志愿者。这可能是你与许多类型的猫互动，包括稀有品种的好机会。这也是回馈动物社区的一种方式。
加入俱乐部或团体：可能有专门针对该品种的俱乐部或在线社区，你可以在那里分享你的兴趣，甚至可能找到在尊重其主人和动物福祉的环境中遇到这种猫的机会。

记住，以尊重他人权利和安全的方式接近我们的热情是很重要的，包括动物。通过选择道德的路径，你不仅依法行事，还为他人树立了积极的榜样。让这成为一个成长和学习的机会，以庆祝尊重和善良的方式找到共同的兴趣。", "role": "assistant" } ] }

数据字段

我们主要遵循Argilla的数据集模式。

main_source (str)：指令的源数据集
original_source (str)：根据源数据集的指令的原始来源
system (str)：详细说明个人多面偏好遵循目标的系统消息，涉及理想响应的四个高级维度（风格、背景知识、信息量和无害性）
prompt (str)：指示特定任务的指令
chosen (List[Dict[str, str]])：最佳遵循系统消息和指令的黄金响应，由gpt-4-0125-preview生成。格式化为对话，即[{"content": ..., "role": "user"}, {"content": ..., "role": "assistant"}]
rejected (List[Dict[str, str]])：最佳遵循不同系统消息和指令的黄金响应，由gpt-4-0125-preview生成。格式与chosen相同。

数据集创建

策划理由

多面集合数据集旨在解决现有对齐数据集的局限性，通过捕捉多个维度的细粒度偏好。我们将偏好概念化为一个详细文本描述，描述一个理想响应应具备的质量。我们确定了模型反映人类偏好多样性的两个关键要求：

R1：多面性：个人偏好是多面的，涵盖适用性、复杂性、可变性和伦理等方面。为了表示这种多样性，我们使用了一种分层的偏好增强策略，从一般维度开始，分支到特定的子维度和偏好。

R2：明确性：为了帮助模型学习偏好和拒绝响应之间的细微差别，我们通过在指令前详细系统消息中明确偏好。

这种方法确保数据集帮助训练语言模型生成与特定、细微用户偏好对齐的响应，跨越各种维度。

数据收集和处理

1. 指令采样

我们从五个高质量偏好数据集中选择指令：

我们移除完全重复的指令，并使用正则表达式模式（r"ˆ(?:(?!.).)*b(you are|you’re|imagine|take w*(?: w+)* role)"）过滤具有预先存在的系统消息的指令，以避免偏好生成中的偏差，最终得到65,000条指令。

以下是数据源分布：

源数据集	原始来源	数量
OpenHermesPreferences	glaive-code-assist	14,779
	-	9,581
	CamelAI	6,254
	EvolInstruct_70k	3,670
	metamath	2,985
	cot_alpaca_gpt4	2,586
	airoboros2.2	2,492
	platypus	1,679
	GPT-4 Comparison Data	678
	UnnaturalInstructions	440
	CogStackMed	348
	caseus_custom	211
	LMSys Chatbot Arena	203
	lmsys1m	79
	Econ_domain_expert	51
Nectar	anthropic-hh	6,037
	lmsys-chat-1m	3,119
	sharegpt	1,994
	ultrachat	783
	evol_instruct	775
	flan_v2_niv2	583
	flan_v2_cot	253
	false_qa	176
	flan_v2_p3	171
	truthful_qa	54
	flan_v2_flan2021	33
ultrafeedback_binarized_cleaned	sharegpt	1,455
	ultrachat	815
	flan_v2_niv2	791
	flan_v2_cot	230
	false_qa	186
	evol_instruct	148
	flan_v2_p3	140
	flan_v2_flan2021	43
chatbot_arena_conversations	-	1,658
domain_specific_preference	alpaca	173
总计		65,653

2. 偏好集生成

我们最初确定了四个主要维度用于响应偏好：风格、背景知识、信息量和无害性。然后我们定义了一个偏好集，包含每个维度的一个偏好。

种子偏好创建：我们（作者）在四个维度下 brainstorm 了 18 个子维度和 107 个偏好。
偏好集生成：对于每个 65,000 条指令，我们使用 gpt-4-0125-preview 生成 3 个不同的任务对齐偏好集。

3. 系统消息和黄金响应生成

我们使用 GPT-4 Turbo 将每个偏好集转换为系统消息，为每个指令生成三个系统消息。我们再次使用 GPT-4 Turbo 为每个系统消息制作黄金标准多面响应。

以上是根据提供的数据集详情页面README文件内容提取的关键信息，并以Markdown格式输出。

搜集汇总

数据集介绍

构建方式

Multifaceted Collection DPO数据集的构建，始于对五个现有偏好数据集的精心采样，涵盖了风格、背景知识、信息性和无害性等多个维度的偏好。通过使用GPT-4 Turbo生成系统消息和标准响应，数据集确保了每个指令都配有一个详细描述个体偏好的系统消息，以及三个与之对应的偏好集合，从而捕捉人类偏好的多样性和细微差别。

特点

该数据集的特点在于其多面性（Multifacetedness）和明确性（Explicitness）。多面性体现在数据集覆盖了多个维度的偏好，如适用性、复杂性、可变性、伦理等，而明确性则通过详细的系统消息体现，有助于模型学习偏好响应之间的细微差异。此外，数据集的规模适中，包含了65k条独特的指令，保证了多样性和实用性。

使用方法

使用Multifaceted Collection DPO数据集时，用户可以将其作为训练语言模型以生成与特定、细微用户偏好对齐的响应的重要资源。数据集的结构允许模型在多个维度上学习偏好，而详细的系统消息则提供了清晰的偏好指导。用户可以通过访问数据集的Homepage、Repository和相关的研究论文来获取更多使用方法和背景信息。

背景与挑战

背景概述

Multifaceted Collection DPO数据集，由韩国科学技术院（KAIST）的研究团队于2024年创建，旨在通过多样化的系统消息，使大型语言模型（LLM）能够对人类多样化的偏好进行对齐。该数据集汇集了来自五个现有数据集的65,000条独特指令，涵盖了风格、背景知识、信息性和无害性等多个维度，以详细描述理想响应应具备的质量。通过使用GPT-4 Turbo生成的系统消息和参考答案，该数据集为训练语言模型以生成与特定、细微用户偏好相一致的反应提供了丰富的资源。

当前挑战

在构建Multifaceted Collection DPO数据集的过程中，研究人员面临着多个挑战。首先，如何从多个来源中抽取并整合多样化的指令，同时避免偏好生成的偏见，是一大挑战。其次，生成既能反映个体偏好多样性，又能为模型学习提供明确指导的系统消息，同样具有挑战性。此外，数据集的创建还需考虑如何平衡数据的质量与数量，以及如何在确保数据多样性的同时，避免潜在的伦理和法律风险。

常用场景

经典使用场景

Multifaceted Collection DPO数据集的典型应用场景在于训练大型语言模型以实现对多样化人类偏好的精准对齐。通过该数据集中的详细系统消息和对应的指令，模型能够学习生成符合特定、细微用户偏好的响应。这一过程对于提升语言模型在多轮对话中的适应性、敏感性和准确性至关重要。

衍生相关工作

基于Multifaceted Collection DPO数据集，研究者可以进一步开展相关工作，如开发新的模型训练方法、设计更复杂的偏好对齐策略，以及探索模型在不同文化和语言背景下的适应性。此外，该数据集也促进了对于大型语言模型伦理使用和偏好对齐技术的讨论和研究。

数据集最近研究