magpie-preference

Hugging Face2024-06-25 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/davanstrien/magpie-preference

下载链接

链接失效反馈

官方服务：

资源简介：

Magpie Preference数据集是一个众包收集的人类对合成指令-响应对的偏好的集合，这些对是通过Magpie方法生成的。该数据集通过用户与Magpie Preference Gradio空间的交互持续更新。数据集包含由大型语言模型使用Magpie方法生成的指令-响应对和人类偏好标签。主要支持的任务是语言模型的偏好学习，特别是在指令跟随和响应生成方面。数据集中的语言主要是英语，但也可能包括模型支持的其他语言。

创建时间：

2024-06-24

原始信息汇总

数据集卡片 - Magpie Preference 数据集

数据集描述

Magpie Preference 数据集是一个通过众包收集的人类对使用 Magpie 方法生成的合成指令-响应对偏好的集合。该数据集通过用户与 Magpie Preference Gradio Space 的交互持续更新。

数据集概要

该数据集包含由大型语言模型（LLM）使用 Magpie 方法生成的指令-响应对和人类偏好标签。数据通过 Gradio 界面收集，用户可以生成指令-响应对并提供对其质量的反馈。

支持的任务

该数据集主要支持语言模型的偏好学习任务，特别是在指令跟随和响应生成方面。

语言

数据集中的语言取决于用于生成的模型（meta-llama/Meta-Llama-3-8B-Instruct）。主要语言是英语，但也可能包括模型支持的其他语言。

数据集结构

数据实例

每个实例包含：

时间戳
生成的指令（提示）
生成的响应（完成）
用户偏好标签（点赞/踩）
会话 ID

数据字段

timestamp：数据生成和评级的 ISO 格式时间戳
prompt：LLM 生成的指令
completion：LLM 生成的响应
label：表示用户偏好的二进制标签（true 表示点赞，false 表示踩）
session_id：用于分组同一会话反馈的 UUID

数据分割

该数据集没有预定义的分割，持续更新新条目。

数据集创建

策划理由

该数据集支持语言模型的偏好学习研究，特别是使用 Magpie 方法生成高质量合成数据。

源数据

源数据实时生成，使用 meta-llama/Meta-Llama-3-8B-Instruct。

初始数据收集和规范化

指令和响应使用预定义模板和 LLM 生成。用户偏好通过 Gradio 界面收集。

注释

注释以二进制偏好标签的形式提供，由 Gradio Space 的用户提供。

注释过程

用户通过 Gradio 界面生成指令-响应对并提供点赞/踩反馈。

注释者

注释者是公共 Gradio Space 的用户，无需特定资格。

个人和敏感信息

数据集不应包含个人信息。每个会话分配一个随机 UUID，不收集用户识别信息。

使用数据的注意事项

数据集的社会影响

该数据集旨在提高语言模型遵循指令和生成高质量响应的能力，可能带来更有用和一致的 AI 系统。

偏见的讨论

数据集可能反映生成模型和用户反馈偏好的偏见。在使用数据集时应考虑这些偏见。

其他已知限制

数据质量取决于用户在提供反馈时的理解和细致程度。
数据集持续演化，可能导致时间上的不一致。

附加信息

数据集策展人

该数据集由 Magpie Preference Gradio Space 的创建者和 Hugging Face 社区的贡献者策展。

引用信息

如果您使用此数据集，请引用 Magpie 论文：

bibtex @misc{xu2024magpie, title={Magpie: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing}, author={Zhangchen Xu and Fengqing Jiang and Luyao Niu and Yuntian Deng and Radha Poovendran and Yejin Choi and Bill Yuchen Lin}, year={2024}, eprint={2406.08464}, archivePrefix={arXiv}, primaryClass={cs.CL} }

贡献

该数据集因 Magpie Preference Gradio Space 用户的贡献而不断增长。我们欢迎并感谢所有贡献！

搜集汇总

数据集介绍

构建方式

Magpie Preference数据集通过一种创新的自合成方法构建，利用对齐的大型语言模型（如Llama-3-Instruct）生成指令-响应对。该方法无需种子数据，仅通过输入左侧模板即可生成用户查询和响应。数据集通过Gradio界面实时收集用户对这些生成的指令-响应对的偏好反馈，形成持续的更新机制。

特点

该数据集的核心特点在于其高质量的对齐数据生成能力，能够生成数百万条指令-响应对，并从中筛选出高质量实例。数据集包含时间戳、生成的指令、响应、用户偏好标签以及会话ID，支持语言模型的偏好学习任务。数据集的动态更新机制确保了其内容的多样性和时效性。

使用方法

Magpie Preference数据集主要用于语言模型的偏好学习研究，特别是在指令跟随和响应生成任务中。用户可以通过Gradio界面生成指令-响应对并提供反馈，从而参与数据集的构建。研究人员可以利用该数据集进行模型微调，评估模型在指令对齐任务中的表现，并探索如何通过偏好优化提升模型性能。

背景与挑战

背景概述

Magpie Preference数据集是由Hugging Face社区与Magpie Preference Gradio Space用户共同构建的众包数据集，专注于收集人类对基于Magpie方法生成的合成指令-响应对的偏好。Magpie方法是一种无需种子数据的创新技术，通过利用已对齐的大型语言模型（如Llama-3-Instruct）的自动回归特性，生成高质量的指令数据。该数据集的核心研究问题在于如何通过合成数据提升语言模型的指令遵循与响应生成能力，从而推动AI系统的对齐与实用性。自2024年提出以来，Magpie方法及其数据集在语言模型对齐领域引起了广泛关注，尤其是在减少人工标注成本、扩展数据多样性方面展现了显著潜力。

当前挑战

Magpie Preference数据集面临的挑战主要集中在两个方面。首先，在领域问题层面，尽管Magpie方法能够生成高质量的合成数据，但其依赖于用户反馈的偏好标签可能存在主观性和不一致性，这可能导致模型在偏好学习过程中引入偏差。其次，在数据构建过程中，由于数据集通过Gradio界面实时更新，用户反馈的质量和多样性难以统一控制，可能导致数据质量波动。此外，生成模型本身的潜在偏差以及用户反馈的局限性，也可能影响数据集的代表性和泛化能力。这些挑战需要通过更精细的反馈机制和偏差检测方法来逐步解决。

常用场景

经典使用场景

Magpie Preference数据集在自然语言处理领域中的经典使用场景主要集中在语言模型的偏好学习上。通过用户对生成的指令-响应对进行偏好标注，该数据集为研究人员提供了一个丰富的资源，用于训练和评估语言模型在指令跟随和响应生成任务中的表现。这种数据集的构建方式不仅能够帮助模型更好地理解人类偏好，还能提升模型在实际应用中的表现。

实际应用

在实际应用中，Magpie Preference数据集可以用于训练和优化各种语言模型，特别是在需要高精度指令跟随和响应生成的场景中。例如，在智能客服、虚拟助手和自动化写作等领域，该数据集可以帮助模型生成更符合用户期望的响应，提升用户体验和系统效率。

衍生相关工作

Magpie Preference数据集衍生了一系列相关研究工作，特别是在语言模型对齐和偏好优化领域。例如，基于该数据集的研究成果已经在AlpacaEval、ArenaHard和WildBench等对齐基准测试中展示了显著的优势。这些工作不仅验证了Magpie方法的有效性，还为未来的语言模型对齐研究提供了新的思路和方法。

以上内容由遇见数据集搜集并总结生成