Magpie-Llama-3.1-Pro-300K-Filtered

Hugging Face2024-07-26 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/Magpie-Align/Magpie-Llama-3.1-Pro-300K-Filtered

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个字段，每个字段都有其特定的数据类型和结构。主要字段包括uuid、model、gen_input_configs（包含多个子字段如temperature、top_p等）、instruction、response、conversations（包含from和value）、task_category、other_task_category、task_category_generator、difficulty、intent、knowledge、difficulty_generator、input_quality、quality_explanation、quality_generator、llama_guard_2、reward_model、instruct_reward、min_neighbor_distance、repeat_count、min_similar_uuid、instruction_length、response_length和language。数据集分为训练集，包含300000个样本。

创建时间：

2024-07-26

原始信息汇总

数据集概述

数据集特征

uuid: 数据类型为字符串。
model: 数据类型为字符串。
gen_input_configs: 结构化数据，包含以下字段：
- temperature: 数据类型为浮点数。
- top_p: 数据类型为浮点数。
- input_generator: 数据类型为字符串。
- seed: 数据类型为空。
- pre_query_template: 数据类型为字符串。
instruction: 数据类型为字符串。
response: 数据类型为字符串。
conversations: 列表数据，包含以下字段：
- from: 数据类型为字符串。
- value: 数据类型为字符串。
task_category: 数据类型为字符串。
other_task_category: 序列数据，数据类型为字符串。
task_category_generator: 数据类型为字符串。
difficulty: 数据类型为字符串。
intent: 数据类型为字符串。
knowledge: 数据类型为字符串。
difficulty_generator: 数据类型为字符串。
input_quality: 数据类型为字符串。
quality_explanation: 数据类型为字符串。
quality_generator: 数据类型为字符串。
llama_guard_2: 数据类型为字符串。
reward_model: 数据类型为字符串。
instruct_reward: 数据类型为浮点数。
min_neighbor_distance: 数据类型为浮点数。
repeat_count: 数据类型为整数。
min_similar_uuid: 数据类型为字符串。
instruction_length: 数据类型为整数。
response_length: 数据类型为整数。
language: 数据类型为字符串。

数据集拆分

train: 包含300,000个样本，总字节数为1,656,792,825.9963841。

数据集大小

下载大小: 1,009,928,826字节。
数据集大小: 1,656,792,825.9963841字节。

配置

default: 包含训练数据文件，路径为data/train-*。

搜集汇总

数据集介绍

构建方式

Magpie-Llama-3.1-Pro-300K-Filtered数据集的构建基于Llama 3.1 70B Instruct模型，采用Magpie自合成方法生成大规模对齐数据。通过输入仅包含用户消息位置左侧模板的方式，利用Llama-3-Instruct的自回归特性生成用户查询及其响应。经过全面分析，从生成的400万条指令中筛选出30万条高质量实例，确保数据的多样性和质量。

特点

该数据集包含丰富的特征，如输入长度、输出长度、任务类别、输入质量、输入难度、最小邻居距离、安全性标签、奖励模型输出以及语言信息。特别地，输入质量和难度分别以清晰度、特异性、连贯性和知识需求为评估标准，最小邻居距离则用于过滤重复或相似实例。这些特征为研究者提供了多维度的分析视角。

使用方法

Magpie-Llama-3.1-Pro-300K-Filtered数据集适用于监督微调（SFT）任务，尤其适合用于对齐大型语言模型。研究者可通过加载数据集并提取指令-响应对，结合Llama-3-8B-Base模型进行微调，以评估模型在文本生成任务中的表现。此外，数据集中的多维度标签可用于进一步优化模型性能，例如通过过滤低质量或重复数据提升训练效果。

背景与挑战

背景概述

Magpie-Llama-3.1-Pro-300K-Filtered数据集由Llama 3.1 70B Instruct模型生成，旨在解决大规模语言模型（LLMs）对齐数据的高质量需求。该数据集由Magpie项目团队开发，其核心研究问题在于如何通过自合成方法从已对齐的LLMs中提取高质量的指令数据，以克服现有开源数据创建方法在扩展性和多样性上的局限。通过输入仅包含左侧模板的提示，Llama-3-Instruct模型能够生成用户查询及其响应，从而生成大规模对齐数据。该数据集的研究成果已在2024年6月发布，并在AlpacaEval、ArenaHard和WildBench等对齐基准测试中展示了其优越性，推动了AI对齐领域的民主化进程。

当前挑战

Magpie-Llama-3.1-Pro-300K-Filtered数据集在构建过程中面临多重挑战。首先，尽管Llama-3-Instruct模型能够生成大量指令数据，但如何从中筛选出高质量、多样化的实例仍是一个难题。其次，数据集中包含大量链式思维响应，可能导致模型性能下降，因此需要通过过滤机制减少此类数据。此外，确保指令的清晰性、特异性以及避免重复或相似实例也是构建过程中的关键挑战。最后，尽管该数据集在部分任务中表现优异，但其在更广泛任务中的泛化能力仍需进一步验证，以证明其在实际应用中的广泛适用性。

常用场景

经典使用场景

Magpie-Llama-3.1-Pro-300K-Filtered数据集在自然语言处理领域中被广泛用于大语言模型（LLMs）的监督微调（SFT）。通过该数据集，研究人员能够生成高质量的指令数据，用于训练和优化语言模型，使其在生成任务中表现出更高的准确性和多样性。该数据集特别适用于需要大规模、高质量对齐数据的场景，如对话生成、文本摘要和问答系统。

衍生相关工作

基于Magpie-Llama-3.1-Pro-300K-Filtered数据集，研究人员开发了多种衍生工作，如多轮对话数据集Magpie-Llama-3.1-Pro-MT-300K-Filtered和直接偏好优化（DPO）数据集Magpie-Llama-3.1-Pro-DPO-100K。这些衍生数据集进一步扩展了原始数据集的应用范围，推动了对话生成、偏好优化等领域的研究进展。

数据集最近研究