five

kaist-ai/Multifaceted-Collection-small

收藏
Hugging Face2024-06-07 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/kaist-ai/Multifaceted-Collection-small
下载链接
链接失效反馈
官方服务:
资源简介:
Multifaceted Collection Small是一个用于对齐大型语言模型(LLMs)与多样化人类偏好的偏好数据集。该数据集包含65k个独特的指令,每个指令伴随一个系统消息和相应的响应。系统消息用于表示个体偏好,帮助模型生成符合特定用户偏好的响应。数据集的结构包括多个字段,如main_source(指令的来源数据集)、original_source(指令的原始来源)、preference_set(偏好集,包含风格、背景知识、信息量和无害性等维度的偏好)、system(系统消息,详细描述要遵循的偏好)、prompt(指令,指示特定任务)和output(黄金响应,由GPT-4生成,最佳遵循系统消息和指令)。数据集的创建过程包括指令采样、偏好集生成、系统消息和黄金响应生成等步骤。

Multifaceted Collection Small是一个用于对齐大型语言模型(LLMs)与多样化人类偏好的偏好数据集。该数据集包含65k个独特的指令,每个指令伴随一个系统消息和相应的响应。系统消息用于表示个体偏好,帮助模型生成符合特定用户偏好的响应。数据集的结构包括多个字段,如main_source(指令的来源数据集)、original_source(指令的原始来源)、preference_set(偏好集,包含风格、背景知识、信息量和无害性等维度的偏好)、system(系统消息,详细描述要遵循的偏好)、prompt(指令,指示特定任务)和output(黄金响应,由GPT-4生成,最佳遵循系统消息和指令)。数据集的创建过程包括指令采样、偏好集生成、系统消息和黄金响应生成等步骤。
提供机构:
kaist-ai
原始信息汇总

数据集卡片:Multifaceted Collection Small

数据集概述

Multifaceted Collection Small 是一个适合监督微调的训练数据集子集,包含65k条独特的指令,每条指令伴随一个指示不同偏好的系统消息和相应的响应。每个指令仅包含一个输入-输出对,使其大小仅为完整训练数据集的三分之一。

数据集结构

数据实例

以下是数据集中的一个示例实例:

json { "main_source": "OpenHermesPreferences", "original_source": "glaive-code-assist", "preference_set": [ { "description": "This preference highlights a desire for answers to be straightforward and direct, eliminating unnecessary details that could distract from the core information.", "dimension": "style", "preference": "concise and focused", "subdimension": "vividness" }, { "description": "The preference suggests that while the user has a foundational knowledge of Python, they may not be familiar with more advanced concepts like hash functions.", "dimension": "background_knowledge", "preference": "assumes basic understanding of Python", "subdimension": "basic" }, { "description": "The emphasis is on delivering a solution that not only addresses the question directly but does so in a manner that can be readily used or adapted in practical scenarios.", "dimension": "informativeness", "preference": "provides implementable solution", "subdimension": "practicality" }, { "description": "Recognizing that not all users are well-versed in complex programming terminologies, this preference ensures that the language model avoids or simplifies advanced jargon.", "dimension": "harmlessness", "preference": "avoids advanced jargon without explanation", "subdimension": "sensitivity" } ], "system": "You are a Python mentor, focusing on building a solid foundation while transitioning beginners into intermediate enthusiasts.", "prompt": "What is the code for creating a hash function in Python that takes a string as input and returns a fixed size integer output?", "output": "Creating a hash function in Python that takes a string as input and returns a fixed-size integer output can be straightforward, thanks to Pythons built-in hash() function." }

数据字段

  • main_source (str):指令的源数据集
  • original_source (str):根据源数据集的指令原始来源
  • preference_set (List[Dict[str, str]]):构成系统消息基础的偏好集。每个偏好集包含四个高级别维度(风格、背景知识、信息量和无害性)中的一个偏好,按维度、子维度和特定偏好(关键词和描述)的顺序指定。
  • system (str):详细说明遵循个人多方面偏好的目标的系统消息。这是从preference_set中的description合成的。
  • prompt (str):指示特定任务的指令
  • output (str):最佳遵循系统消息和指令的黄金标准响应,由gpt-4-0125-preview生成

数据集创建

策划理由

MultifacetedCollection 数据集旨在解决现有对齐数据集的局限性,通过捕捉跨多个维度的细粒度偏好。我们将偏好概念化为一个详细描述理想响应应具备的质量的文本。我们确定了模型反映人类偏好多样性的两个关键要求:

  • R1: 多面性:个人偏好是多面的,涵盖适用性、复杂性、可变性和伦理等方面。为了表示这种多样性,我们采用了一种从一般维度分支到特定子维度和偏好的层次偏好增强策略。
  • R2: 显式性:为了帮助模型学习偏好响应和拒绝响应之间的细微差别,我们通过详细的系统消息在输入中明确偏好。

数据收集和处理

1. 指令采样

我们从五个高质量偏好数据集中选择指令:

我们移除完全重复的指令,并使用正则表达式模式过滤掉带有预先存在的系统消息的指令,最终得到65k条指令。

2. 偏好集生成

我们最初确定了四个主要响应偏好维度:风格、背景知识、信息量和无害性。然后定义了一个包含每个维度一个偏好的偏好集

  1. 种子偏好创建:我们(作者) brainstorm 了18个子维度和107个偏好。
  2. 偏好集生成:对于每个65k指令,我们使用gpt-4-0125-preview生成3个不同任务对齐的偏好集。

3. 系统消息和黄金响应生成

我们使用GPT-4 Turbo将每个偏好集转换为系统消息,每个指令生成三个系统消息。再次使用GPT-4 Turbo为每个系统消息制作黄金标准的多方面响应。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作