Magpie-Qwen2.5-Pro-300K-Filtered

Hugging Face2024-10-20 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/Magpie-Align/Magpie-Qwen2.5-Pro-300K-Filtered

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由Qwen/Qwen2.5-72B-Instruct模型使用Magpie方法生成，包含300,000个高质量的指令及其对应的响应。数据集的特征包括UUID、模型名称、生成输入配置、指令、响应、对话、任务类别、难度、意图、知识等多个字段。数据集的生成方法是通过向对齐的大型语言模型（如Llama-3-Instruct）输入左侧模板，利用其自回归特性生成用户查询，从而生成大规模的对齐数据。数据集经过筛选，确保输入质量高、指令奖励大于等于-5，并移除重复和不完整的指令。数据集还包括输入长度、输出长度、任务类别、输入质量、输入难度、最小邻居距离、安全性标签、奖励和语言等标签。

创建时间：

2024-10-20

原始信息汇总

数据集概述：Magpie-Qwen2.5-Pro-300K-Filtered

基本信息

数据集来源：由Qwen/Qwen2.5-72B-Instruct生成，使用Magpie方法。
数据集大小：2,480,872,523.87字节（约2.48GB）。
下载大小：1,445,340,108字节（约1.45GB）。
样本数量：300,000条。
数据格式：包含多个结构化特征。

数据集特征

uuid：字符串类型，唯一标识符。
model：字符串类型，模型名称。
gen_input_configs：结构体，包含温度(temperature)、top_p(top_p)、输入生成器(input_generator)、种子(seed)、查询模板(pre_query_template)等字段。
instruction：字符串类型，指令内容。
response：字符串类型，响应内容。
conversations：列表类型，包含来源(from)和值(value)字段。
task_category：字符串类型，任务类别。
other_task_category：字符串序列，其他任务类别。
task_category_generator：字符串类型，任务类别生成器。
difficulty：字符串类型，难度级别。
intent：字符串类型，意图。
knowledge：字符串类型，知识。
difficulty_generator：字符串类型，难度生成器。
input_quality：字符串类型，输入质量。
quality_explanation：字符串类型，质量解释。
quality_generator：字符串类型，质量生成器。
llama_guard_2：字符串类型，安全标签。
reward_model：字符串类型，奖励模型。
instruct_reward：浮点类型，指令奖励。
min_neighbor_distance：浮点类型，最小邻居距离。
repeat_count：整型，重复计数。
min_similar_uuid：字符串类型，最小相似uuid。
instruction_length：整型，指令长度。
response_length：整型，响应长度。
language：字符串类型，语言。

可用标签

输入长度：指令中的字符总数。
输出长度：响应中的字符总数。
任务类别：指令的具体类别。
输入质量：指令的清晰度、特异性和连贯性，评级为very poor、poor、average、good和excellent。
输入难度：完成任务所需的知识水平，评级为very easy、easy、medium、hard或very hard。
最小邻居距离：数据集中最近邻居的嵌入距离。
安全性：由meta-llama/Meta-Llama-Guard-2-8B标记的安全标签。
奖励：奖励模型对特定指令-响应对的输出。
语言：指令的语言。

过滤设置

输入质量：≥ good。
指令奖励：≥ -5。
移除重复和不完整的指令（例如以冒号结尾的指令）。
移除包含"Alibaba"的指令。
选择响应最长的300K条数据。

相关资源

项目网站：https://magpie-align.github.io/
技术报告：https://arxiv.org/abs/2406.08464
代码库：https://github.com/magpie-align/magpie

搜集汇总

数据集介绍

构建方式

Magpie-Qwen2.5-Pro-300K-Filtered数据集的构建基于Qwen/Qwen2.5-72B-Instruct模型，采用Magpie自合成方法生成大规模对齐数据。该方法通过输入左侧模板至用户消息预留位置，利用对齐大语言模型的自回归特性生成用户查询及其响应。初始生成400万条指令及其对应响应，经过全面分析后筛选出30万条高质量实例。筛选标准包括输入质量、指令奖励、去除重复和不完整指令，并选择响应最长的数据。

特点

该数据集包含丰富的特征，如输入长度、输出长度、任务类别、输入质量、输入难度、最小邻居距离、安全标签、奖励模型输出及语言等。输入质量分为‘非常差’到‘优秀’五个等级，输入难度则从‘非常简单’到‘非常难’五个级别。最小邻居距离用于过滤重复或相似实例，安全标签由Meta-Llama-Guard-2-8B标记，奖励模型输出则评估指令-响应对的质量。这些特征为研究者提供了多维度的分析视角。

使用方法

Magpie-Qwen2.5-Pro-300K-Filtered数据集适用于监督微调（SFT）任务，可用于提升大语言模型的性能。研究者可通过该数据集进行模型训练，评估其在特定任务上的表现。数据集中的特征如输入质量、难度及奖励模型输出，可用于进一步优化模型的对齐效果。此外，最小邻居距离特征有助于去除重复数据，提升数据集的多样性。该数据集的使用方法详见相关论文和代码库，为研究者提供了详细的实现指南。

背景与挑战

背景概述

Magpie-Qwen2.5-Pro-300K-Filtered数据集由Qwen/Qwen2.5-72B-Instruct模型生成，旨在解决大规模语言模型（LLMs）对齐过程中高质量指令数据稀缺的问题。该数据集基于Magpie方法，通过自合成技术从已对齐的LLM中提取指令数据，生成并筛选出30万条高质量实例。Magpie方法的核心在于利用已对齐模型的自动回归特性，仅输入左侧模板即可生成用户查询，从而大幅降低数据生成的人力成本。该数据集的研究背景源于LLMs对齐数据私有化的问题，阻碍了AI技术的民主化进程。Magpie的提出不仅为公开对齐数据集提供了新的生成途径，还在多个对齐基准测试中展现了与官方对齐模型相当的性能。

当前挑战

Magpie-Qwen2.5-Pro-300K-Filtered数据集在构建过程中面临多重挑战。首先，如何确保生成指令数据的多样性和质量是一个核心问题。尽管Magpie方法通过自合成技术降低了人力成本，但生成的数据仍需经过严格的筛选和过滤，以避免重复、不完整或低质量的实例。其次，数据集的构建依赖于已对齐模型的自动回归特性，这可能导致生成数据的范围受限，难以覆盖所有可能的任务类别和难度级别。此外，数据集的过滤标准（如输入质量、指令奖励等）需要精心设计，以确保最终筛选出的数据能够有效支持模型的对齐训练。最后，数据集的规模与质量之间的平衡也是一个重要挑战，如何在保证高质量的同时扩大数据规模，仍需进一步探索。

常用场景

经典使用场景

在自然语言处理领域，Magpie-Qwen2.5-Pro-300K-Filtered数据集被广泛应用于大语言模型的监督微调（SFT）任务中。通过该数据集，研究人员能够对模型进行精细化的指令对齐，提升模型在生成任务中的表现。其高质量的指令数据为模型提供了多样化的训练样本，涵盖了从简单到复杂的多种任务类别，使得模型能够在不同场景下展现出更强的泛化能力。

衍生相关工作

基于Magpie-Qwen2.5-Pro-300K-Filtered数据集，研究人员开展了多项经典工作。例如，利用该数据集进行监督微调的模型在AlpacaEval、ArenaHard等基准测试中表现优异，甚至超越了使用其他公开数据集进行微调的模型。此外，该数据集还推动了指令数据生成方法的研究，为后续大规模高质量数据集的构建提供了重要借鉴。

数据集最近研究