Magpie-Llama-3.1-Pro-MT-500K-v0.1

Hugging Face2024-08-28 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/Magpie-Align/Magpie-Llama-3.1-Pro-MT-500K-v0.1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由Llama 3.1 70B Instruct模型通过Magpie方法生成，包含500,000条训练数据。数据集特征丰富，包括UUID、模型名称、生成输入配置、对话、指令、响应、意图、知识、难度、输入质量、质量解释、任务类别、语言等。数据集经过严格筛选，确保输入质量高、指令奖励大于等于-10，并移除重复和不完整的指令。该数据集主要用于支持大型语言模型的对齐研究，特别是在任务类别、输入质量和难度等方面提供了详细的标签信息。

创建时间：

2024-08-26

原始信息汇总

数据集概述

数据集信息

特征列表：
- uuid: 字符串类型
- model: 字符串类型
- gen_input_configs: 结构体，包含以下字段：
  - temperature: 浮点数类型
  - top_p: 浮点数类型
  - input_generator: 字符串类型
  - seed: 空类型
  - pre_query_template: 字符串类型
- conversations: 列表，包含以下字段：
  - from: 字符串类型
  - value: 字符串类型
- instruction: 字符串类型
- response: 字符串类型
- instruction_2: 字符串类型
- response_2: 字符串类型
- intent: 字符串类型
- knowledge: 字符串类型
- difficulty: 字符串类型
- difficulty_generator: 字符串类型
- input_quality: 字符串类型
- quality_explanation: 字符串类型
- quality_generator: 字符串类型
- task_category: 字符串类型
- other_task_category: 字符串序列
- task_category_generator: 字符串类型
- llama_guard_2: 字符串类型
- instruct_reward: 浮点数类型
- reward_model: 字符串类型
- language: 字符串类型
数据分割：
- train: 包含500,000个样本，总字节数为4,765,345,150
数据集大小：
- 下载大小：2,118,366,682字节
- 数据集大小：4,765,345,150字节
配置：
- default配置，包含训练数据文件路径：data/train-*

数据集详情

生成模型：使用Llama 3.1 70B Instruct生成
生成方法：使用Magpie方法
许可证：遵循Meta Llama 3.1 Community License

可用标签

输入长度：指令中的字符总数
输出长度：响应中的字符总数
任务类别：指令的具体类别
输入质量：指令的清晰度、特异性和连贯性，评级为非常差、差、一般、好和优秀
输入难度：完成任务所需知识的水平，评级为非常容易、容易、中等、难或非常难
最小邻居距离：数据集中最近邻居的嵌入距离，用于过滤重复或相似实例
安全性：由meta-llama/Meta-Llama-Guard-2-8B标记的安全标签
奖励：奖励模型对特定指令-响应对的输出
语言：指令的语言

过滤设置

输入质量：>= 好
指令奖励：>=-10
移除重复和不完整的指令
选择包含 <5的指令，代码和调试除外
选择500K数据中响应最长的样本

数据集导航

模型名称：Llama 3.1 70B Instruct
数据集：Magpie-Llama-3.1-Pro-MT-500K
类型：SFT
描述：从Magpie-Llama-3.1-Pro-500K-Filtered扩展到多轮对话

搜集汇总

数据集介绍

构建方式

Magpie-Llama-3.1-Pro-MT-500K-v0.1数据集的构建基于Llama 3.1 70B Instruct模型，通过Magpie框架生成。该框架利用自回归模型的特性，输入仅包含用户消息左侧模板的提示，从而生成用户查询及其对应的响应。生成的数据经过严格筛选，确保输入质量、指令奖励和响应长度等指标达到高标准，最终形成包含50万条高质量多轮对话的数据集。

特点

该数据集的特点在于其高质量的多轮对话内容，涵盖了丰富的任务类别和语言多样性。每条数据均经过输入质量、难度、安全性等多维度评估，确保其清晰性、连贯性和安全性。此外，数据集还包含详细的元数据，如输入长度、输出长度、任务类别、输入质量评分等，为研究者提供了丰富的分析维度。

使用方法

该数据集适用于监督式微调（SFT）任务，尤其适合用于提升大语言模型在多轮对话场景中的表现。研究者可以通过加载数据集并利用其多轮对话结构进行模型训练，进一步优化模型的对话生成能力。此外，数据集中的元数据可用于过滤和选择特定任务类别或质量等级的对话，帮助研究者进行更精细的实验设计。

背景与挑战

背景概述

Magpie-Llama-3.1-Pro-MT-500K-v0.1数据集是由Llama 3.1 70B Instruct模型生成的，旨在解决大规模语言模型对齐问题。该数据集由Magpie项目团队于2024年发布，核心研究问题在于如何通过自合成方法生成高质量的对齐数据，以弥补现有公开数据集在多样性和质量上的不足。通过利用Llama-3-Instruct模型的自动回归特性，Magpie团队成功生成了400万条指令及其对应响应，并从中筛选出30万条高质量实例。该数据集的研究成果已在多个对齐基准测试中展现出显著优势，推动了AI对齐领域的民主化进程。

当前挑战

Magpie-Llama-3.1-Pro-MT-500K-v0.1数据集在构建过程中面临多重挑战。首先，如何确保生成指令的多样性和质量是一个关键问题，尽管Llama-3-Instruct模型具备强大的生成能力，但其生成的指令仍需经过严格的筛选和过滤，以避免重复或低质量内容。其次，数据集的扩展性受到限制，现有开源数据生成方法难以有效扩展，导致数据集的规模和质量难以进一步提升。此外，多轮对话的生成和筛选过程复杂，需要确保对话的连贯性和逻辑性，这对数据集的构建提出了更高的技术要求。最后，数据集的多样性和任务覆盖范围仍需进一步优化，以确保其在不同任务场景下的广泛应用。

常用场景

经典使用场景

在自然语言处理领域，Magpie-Llama-3.1-Pro-MT-500K-v0.1数据集被广泛应用于大规模语言模型的微调任务。通过其多轮对话结构，研究人员能够深入探索模型在复杂对话场景中的表现，尤其是在处理多轮交互、上下文理解和任务导向对话时，该数据集提供了丰富的训练样本。其高质量的指令数据使得模型能够在生成响应时保持连贯性和准确性，从而提升对话系统的整体性能。

衍生相关工作

基于Magpie-Llama-3.1-Pro-MT-500K-v0.1数据集，研究人员开发了多种改进模型对齐的方法。例如，通过结合直接偏好优化（DPO）技术，进一步提升了模型的响应质量。此外，该数据集还启发了多项关于多轮对话生成和上下文理解的研究，推动了自然语言处理领域在任务导向型对话系统方面的进展。

数据集最近研究