Magpie-Qwen2.5-Pro-1M-v0.1

Hugging Face2024-10-20 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/Magpie-Align/Magpie-Qwen2.5-Pro-1M-v0.1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由Qwen/Qwen2.5-72B-Instruct模型使用Magpie方法生成，包含100万条训练样本，涵盖UUID、模型名称、生成输入配置、指令、响应、对话、任务类别、难度、意图、知识等特征。数据集通过向对齐的大型语言模型输入左侧模板生成用户查询，筛选出30万条高质量实例。标签包括输入长度、输出长度、任务类别、输入质量、输入难度、最小邻居距离、安全性、奖励和语言。

创建时间：

2024-10-20

原始信息汇总

数据集概述：Magpie-Qwen2.5-Pro-1M-v0.1

基本信息

数据集名称: Magpie-Qwen2.5-Pro-1M-v0.1
生成模型: Qwen/Qwen2.5-72B-Instruct
生成方法: Magpie自合成方法
数据集大小: 7,980,614,663字节
下载大小: 3,949,552,138字节
样本数量: 1,000,000
任务类别: 文本生成（text-generation）
规模分类: 1M<n<10M

数据集结构

特征

uuid: 字符串类型，唯一标识符
model: 字符串类型，生成模型名称
gen_input_configs: 结构体，包含以下字段：
- temperature: float64
- top_p: float64
- input_generator: 字符串
- seed: null
- pre_query_template: 字符串
instruction: 字符串类型，指令内容
response: 字符串类型，模型响应
conversations: 列表，包含以下字段：
- from: 字符串
- value: 字符串
task_category: 字符串类型，任务类别
other_task_category: 字符串序列
task_category_generator: 字符串类型
difficulty: 字符串类型，难度等级
intent: 字符串类型
knowledge: 字符串类型
difficulty_generator: 字符串类型
input_quality: 字符串类型，输入质量
quality_explanation: 字符串类型
quality_generator: 字符串类型
llama_guard_2: 字符串类型，安全标记
reward_model: 字符串类型
instruct_reward: float64类型
min_neighbor_distance: float64类型，最小邻居距离
repeat_count: int64类型
min_similar_uuid: 字符串类型
instruction_length: int64类型，指令长度
response_length: int64类型，响应长度
language: 字符串类型，语言

可用标签

输入长度: 指令中的字符总数
输出长度: 响应中的字符总数
任务类别: 指令的具体类别
输入质量: 指令的清晰度、特异性和连贯性，分为very poor、poor、average、good和excellent
输入难度: 完成任务所需的知识水平，分为very easy、easy、medium、hard或very hard
最小邻居距离: 数据集中最近邻居的嵌入距离
安全性: 由meta-llama/Meta-Llama-Guard-2-8B标记的安全标签
奖励: 给定特定指令-响应对的奖励模型输出
语言: 指令的语言

相关资源

项目网站: https://magpie-align.github.io/
技术报告: https://arxiv.org/abs/2406.08464
代码库: https://github.com/magpie-align/magpie

搜集汇总

数据集介绍

构建方式

Magpie-Qwen2.5-Pro-1M-v0.1数据集的构建基于自合成方法，通过利用对齐的大型语言模型（如Llama-3-Instruct）生成用户查询。该方法的核心在于利用模型的自动回归特性，仅输入左侧模板即可生成用户消息。通过这一方法，模型生成了400万条指令及其对应的响应，并从中筛选出30万条高质量实例。数据集的具体生成过程由Qwen/Qwen2.5-72B-Instruct模型完成，详细技术细节可参考相关论文和代码库。

使用方法

Magpie-Qwen2.5-Pro-1M-v0.1数据集主要用于监督微调（SFT）任务，适用于文本生成领域。用户可以通过加载数据集并提取相关特征进行模型训练。数据集中的任务类别、输入质量和难度等信息可用于指导模型的微调过程，最小邻居距离和安全性标签则有助于筛选高质量的训练样本。此外，奖励模型输出可用于评估模型生成响应的质量，进一步提升模型的性能。

背景与挑战

背景概述

Magpie-Qwen2.5-Pro-1M-v0.1数据集由Magpie项目团队于2024年发布，旨在解决大规模语言模型（LLMs）对齐数据的高质量生成问题。该数据集通过自合成方法，利用Qwen/Qwen2.5-72B-Instruct模型生成指令数据，以弥补现有公开数据集在多样性和质量上的不足。研究团队观察到，对齐的LLMs能够通过自回归特性生成用户查询，从而在无需人工干预的情况下大规模生成指令数据。该数据集包含100万条指令及其响应，经过筛选后保留了30万条高质量实例。Magpie数据集的发布为LLMs的对齐研究提供了新的数据资源，并在多个对齐基准测试中表现出色，推动了AI民主化的进程。

当前挑战

Magpie-Qwen2.5-Pro-1M-v0.1数据集在构建过程中面临多重挑战。首先，生成高质量指令数据需要确保指令的清晰性、特定性和连贯性，这对模型的生成能力提出了较高要求。其次，数据集中可能存在重复或相似的实例，需要通过最小邻居距离等指标进行过滤，以保证数据的多样性。此外，指令的难度和任务类别的多样性也是构建过程中的难点，需要模型具备广泛的知识覆盖和任务理解能力。最后，数据集的安全性评估同样至关重要，需借助Meta-Llama-Guard-2-8B等工具对生成内容进行安全标记，以确保数据的合规性和安全性。这些挑战共同构成了该数据集构建的核心难题。

常用场景

经典使用场景

在自然语言处理领域，Magpie-Qwen2.5-Pro-1M-v0.1数据集被广泛应用于大规模语言模型的指令微调任务。通过该数据集，研究人员能够生成高质量的指令数据，进而优化模型的对话生成能力。其独特的自合成方法使得模型能够在无监督的情况下生成多样化的指令对，极大地提升了数据生成的效率和多样性。

解决学术问题

Magpie-Qwen2.5-Pro-1M-v0.1数据集解决了大规模语言模型在指令对齐过程中数据稀缺和多样性不足的问题。通过从已对齐的模型中提取指令数据，该数据集为研究人员提供了一种高效且低成本的数据生成方法，显著提升了模型在各类任务中的表现，尤其是在对齐基准测试中的表现。

实际应用

在实际应用中，Magpie-Qwen2.5-Pro-1M-v0.1数据集被用于优化智能客服、虚拟助手等对话系统的性能。通过微调模型，系统能够更准确地理解用户意图，生成更加自然和连贯的回复，从而提升用户体验。此外，该数据集还可用于多语言对话系统的开发，支持多种语言的指令生成和响应。

数据集最近研究