Magpie-Llama-3.1-Pro-500K-Filtered

Hugging Face2024-07-29 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/Magpie-Align/Magpie-Llama-3.1-Pro-500K-Filtered

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个特征，如唯一标识符（uuid）、模型名称（model）、生成输入配置（gen_input_configs）等。生成输入配置是一个结构化字段，包含温度（temperature）、top_p值、输入生成器（input_generator）等子字段。数据集还包括指令（instruction）、响应（response）、对话（conversations）等字段。数据集分为训练集，包含500000个样本，总大小为2678648710.73596字节，下载大小为1225264951字节。

创建时间：

2024-07-29

原始信息汇总

数据集概述

数据集特征

uuid: 字符串类型
model: 字符串类型
gen_input_configs: 结构体类型，包含以下字段：
- temperature: 浮点数类型
- top_p: 浮点数类型
- input_generator: 字符串类型
- seed: 空类型
- pre_query_template: 字符串类型
instruction: 字符串类型
response: 字符串类型
conversations: 列表类型，包含以下字段：
- from: 字符串类型
- value: 字符串类型
task_category: 字符串类型
other_task_category: 字符串序列类型
task_category_generator: 字符串类型
difficulty: 字符串类型
intent: 字符串类型
knowledge: 字符串类型
difficulty_generator: 字符串类型
input_quality: 字符串类型
quality_explanation: 字符串类型
quality_generator: 字符串类型
llama_guard_2: 字符串类型
reward_model: 字符串类型
instruct_reward: 浮点数类型
min_neighbor_distance: 浮点数类型
repeat_count: 整数类型
min_similar_uuid: 字符串类型
instruction_length: 整数类型
response_length: 整数类型
language: 字符串类型

数据集分割

train: 包含500,000个样本，占用2,678,648,710.73596字节

数据集大小

下载大小: 1,225,264,951字节
数据集大小: 2,678,648,710.73596字节

配置

default: 包含训练数据文件，路径为data/train-*

搜集汇总

数据集介绍

构建方式

Magpie-Llama-3.1-Pro-500K-Filtered数据集是通过自合成方法生成的，利用Llama-3-Instruct模型的自动回归特性，仅输入用户消息左侧的模板即可生成用户查询。该方法生成了400万条指令及其对应响应，经过全面分析后筛选出30万条高质量实例。最终，通过一系列过滤条件，如输入质量、指令奖励、重复性和完整性等，进一步精选出50万条高质量对话数据。

特点

该数据集的特点在于其高质量和多样性，涵盖了多种任务类别和难度级别。每条数据均包含详细的元信息，如输入长度、输出长度、任务类别、输入质量、输入难度、最小邻居距离、安全标签和奖励模型输出等。这些特征使得数据集在模型对齐任务中表现出色，尤其在文本生成任务中，能够显著提升模型的性能。

使用方法

Magpie-Llama-3.1-Pro-500K-Filtered数据集主要用于监督微调（SFT）任务，适用于训练和优化大型语言模型。用户可以通过加载数据集并提取指令-响应对，直接用于模型的微调过程。此外，数据集中的元信息可用于进一步的数据分析和过滤，以优化模型的训练效果。该数据集还可用于多轮对话任务的扩展，提升模型在复杂对话场景中的表现。

背景与挑战

背景概述

Magpie-Llama-3.1-Pro-500K-Filtered数据集由Llama 3.1 70B Instruct模型生成，旨在解决大规模语言模型（LLMs）对齐数据的高质量生成问题。该数据集由Magpie项目团队于2024年发布，核心研究问题在于如何通过自合成方法从已对齐的LLMs中提取高质量指令数据，以克服现有开源数据生成方法在规模、多样性和质量上的局限性。通过输入左侧模板并利用LLMs的自回归特性，Magpie成功生成了400万条指令及其响应，并从中筛选出50万条高质量数据。该数据集在多个对齐基准测试中表现出色，部分任务的表现甚至可与官方Llama-3-8B-Instruct模型相媲美，展示了其在推动AI民主化进程中的潜力。

当前挑战

Magpie-Llama-3.1-Pro-500K-Filtered数据集在构建过程中面临多重挑战。首先，生成高质量指令数据需要克服LLMs生成内容的多样性与一致性之间的平衡问题，尤其是在大规模生成时，如何避免重复或低质量内容成为关键。其次，数据过滤过程中需确保指令的清晰性、特异性及连贯性，同时还需评估任务的难度和输入质量，这对算法的设计与实现提出了较高要求。此外，数据集包含大量链式思维响应，可能导致模型性能下降，因此需通过过滤机制减少此类数据的影响。最后，如何确保生成数据的安全性及合规性，特别是在多轮对话场景中，仍需进一步优化与验证。

常用场景

经典使用场景

Magpie-Llama-3.1-Pro-500K-Filtered数据集在自然语言处理领域中被广泛用于大规模语言模型的监督微调（SFT）。通过该数据集，研究人员能够对Llama-3等大型语言模型进行高效的指令对齐，从而提升模型在生成任务中的表现。该数据集的高质量指令数据为模型提供了多样化的任务场景，涵盖了从简单问答到复杂推理的广泛领域，确保了模型在不同任务上的泛化能力。

实际应用

在实际应用中，Magpie-Llama-3.1-Pro-500K-Filtered数据集被用于开发智能助手、自动化客服系统以及教育领域的个性化学习工具。通过使用该数据集进行微调，模型能够生成更加准确、连贯且符合用户需求的响应，显著提升了用户体验。此外，该数据集还被用于多轮对话系统的开发，帮助模型在复杂对话场景中保持上下文一致性。

衍生相关工作

基于Magpie数据集的研究工作衍生了许多经典成果，例如在AlpacaEval、ArenaHard和WildBench等基准测试中表现优异的模型。这些模型通过Magpie数据集进行监督微调，展示了其在指令对齐任务中的显著优势。此外，Magpie数据集还为直接偏好优化（DPO）等高级对齐技术提供了数据支持，推动了语言模型对齐技术的进一步发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集