Magpie-Llama-3.1-Pro-MT-500K-Filtered

Hugging Face2024-08-20 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/Magpie-Align/Magpie-Llama-3.1-Pro-MT-500K-Filtered

下载链接

链接失效反馈

官方服务：

资源简介：

数据集由Llama 3.1 70B Instruct模型使用Magpie方法生成，包含500,000条训练数据。数据集特征包括UUID、模型名称、生成输入配置、对话、指令、响应、意图、知识、难度、输入质量、质量解释、任务类别等。数据集经过筛选，确保输入质量为'good'及以上，指令奖励大于等于-10，去除重复和不完整的指令，选择包含较少换行符的指令（编程和调试除外），并选择响应最长的500,000条数据进行多轮对话扩展。数据集还包括输入长度、输出长度、任务类别、输入难度、最近邻距离、安全标签、奖励和语言等标签。

创建时间：

2024-08-12

原始信息汇总

数据集概述

数据集信息

特征列表:
- uuid: 字符串
- model: 字符串
- gen_input_configs: 结构体
  - temperature: 浮点数
  - top_p: 浮点数
  - input_generator: 字符串
  - seed: 空值
  - pre_query_template: 字符串
- conversations: 列表
  - from: 字符串
  - value: 字符串
- instruction: 字符串
- response: 字符串
- instruction_2: 字符串
- response_2: 字符串
- intent: 字符串
- knowledge: 字符串
- difficulty: 字符串
- difficulty_generator: 字符串
- input_quality: 字符串
- quality_explanation: 字符串
- quality_generator: 字符串
- task_category: 字符串
- other_task_category: 序列
- task_category_generator: 字符串
- llama_guard_2: 字符串
- instruct_reward: 浮点数
- reward_model: 字符串
- language: 字符串
分割:
- train: 4765345150 字节, 500000 样本
下载大小: 2118366682 字节
数据集大小: 4765345150 字节
配置:
- default
  - data_files:
    - split: train
    - path: data/train-*
许可证: llama3.1
任务类别:
- 文本生成
语言:
- 英语
大小类别:
- 100K<n<1M

数据集详情

生成模型: Llama 3.1 70B Instruct
生成方法: Magpie
许可证: 遵循 Meta Llama 3.1 Community License

可用标签

输入长度: 指令中的字符总数
输出长度: 响应中的字符总数
任务类别: 指令的具体类别
输入质量: 指令的清晰度、具体性和连贯性，评级为非常差, 差, 一般, 好, 优秀
输入难度: 处理指令所需知识的水平，评级为非常简单, 简单, 中等, 困难, 非常困难
最小邻居距离: 数据集中最近邻居的嵌入距离，可用于过滤重复或相似的实例
安全性: 由 meta-llama/Meta-Llama-Guard-2-8B 标记的安全标签
奖励: 奖励模型给出的特定指令-响应对的输出
语言: 指令的语言

过滤设置

输入质量: >= 好
指令奖励: >=-10
移除重复和不完整的指令（例如，以 : 结尾）
选择指令中 <5 的指令，除了编码和调试
选择 500K 数据，具有最长的响应
扩展为多轮对话

搜集汇总

数据集介绍

构建方式

Magpie-Llama-3.1-Pro-MT-500K-Filtered数据集的构建基于自合成方法，利用Llama-3-Instruct模型的自动回归特性生成大规模对齐数据。通过输入仅包含用户消息位置的左侧模板，模型能够生成用户查询及其响应。随后，从生成的400万条指令中筛选出30万条高质量实例，并通过过滤条件进一步优化，最终扩展为多轮对话数据集。

特点

该数据集的特点在于其高质量的多轮对话结构，涵盖了丰富的任务类别和语言多样性。每条指令均经过严格的输入质量、难度和安全性评估，确保数据的清晰性、连贯性和安全性。此外，数据集还包含奖励模型输出和嵌入距离等元数据，便于进一步分析和过滤重复或相似实例。

使用方法

Magpie-Llama-3.1-Pro-MT-500K-Filtered数据集适用于监督微调（SFT）任务，尤其适合用于提升大语言模型在多轮对话中的表现。用户可通过加载数据集并利用其丰富的元数据（如任务类别、输入质量和奖励模型输出）进行模型训练和评估。此外，数据集的多轮对话结构为研究复杂对话场景提供了有力支持。

背景与挑战

背景概述

Magpie-Llama-3.1-Pro-MT-500K-Filtered数据集是由Llama 3.1 70B Instruct模型通过Magpie方法生成的高质量多轮对话数据集。该数据集的核心研究问题在于如何通过自合成方法从已对齐的大型语言模型（LLMs）中提取高质量的指令数据，以解决现有开源数据创建方法在扩展性和多样性上的局限性。Magpie方法通过利用Llama-3-Instruct等对齐模型的自动回归特性，生成用户查询及其对应的响应，从而在无需大量人工干预的情况下，生成大规模的指令数据。该数据集的研究背景可追溯至2024年，相关技术报告发布于arXiv，并由Magpie-Align团队主导开发。其影响力主要体现在为LLMs的对齐任务提供了高质量的公开数据集，推动了AI民主化进程。

当前挑战

Magpie-Llama-3.1-Pro-MT-500K-Filtered数据集在构建过程中面临多重挑战。首先，如何确保生成数据的多样性和质量是一个核心问题。尽管Magpie方法通过自合成技术减少了人工干预，但数据的多样性和复杂性仍需通过严格的过滤机制来保证。其次，数据集的构建依赖于Llama-3-Instruct模型的自动回归特性，这可能导致生成的数据在某些任务上存在偏差或重复。此外，多轮对话的扩展进一步增加了数据处理的复杂性，如何保持对话的连贯性和逻辑性成为一大挑战。最后，数据集的过滤标准（如输入质量、指令奖励等）虽然提升了数据质量，但也可能导致部分有价值的数据被排除在外，从而影响数据集的全面性。

常用场景

经典使用场景

在自然语言处理领域，Magpie-Llama-3.1-Pro-MT-500K-Filtered数据集被广泛用于大规模语言模型的微调与对齐研究。通过其多轮对话结构，研究者能够深入探索模型在复杂任务中的表现，尤其是在多轮交互场景下的连贯性与上下文理解能力。该数据集的高质量指令数据为模型提供了丰富的训练素材，使其能够在生成式任务中表现出色。

实际应用

在实际应用中，Magpie-Llama-3.1-Pro-MT-500K-Filtered数据集为智能助手、客服系统以及教育工具的开发提供了强有力的支持。其多轮对话能力使得模型能够在复杂的用户交互场景中保持连贯性，提升用户体验。此外，该数据集的高质量指令数据还可用于开发更精准的问答系统与知识检索工具，推动人工智能技术在商业与教育领域的广泛应用。

衍生相关工作

基于Magpie-Llama-3.1-Pro-MT-500K-Filtered数据集，研究者们开展了多项经典工作。例如，利用该数据集进行监督微调（SFT）的模型在AlpacaEval和WildBench等基准测试中表现优异。此外，该数据集还被用于直接偏好优化（DPO）研究，通过Best-of-N采样与奖励模型结合，进一步提升了模型的生成质量与对齐效果。这些工作为后续研究提供了重要的参考与基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集