Magpie-Align/Magpie-Qwen-Air-300K-Filtered

Name: Magpie-Align/Magpie-Qwen-Air-300K-Filtered
Creator: Magpie-Align
Published: 2024-07-05 05:56:41
License: 暂无描述

Hugging Face2024-07-05 更新2024-07-06 收录

下载链接：

https://hf-mirror.com/datasets/Magpie-Align/Magpie-Qwen-Air-300K-Filtered

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是通过Magpie方法生成的，使用了Qwen/Qwen2-7B-Instruct模型。数据集包含多个特征，如输入长度、输出长度、任务类别、输入质量、输入难度、最小邻居距离、安全性标签、奖励模型输出和语言等。数据集经过过滤，选择了300K高质量对话，并提供了不同语言和模型版本的数据集。

The dataset is generated by the Qwen/Qwen2-7B-Instruct model using the Magpie method, containing 300,000 high-quality instances. The features of the dataset include UUID, model name, generation input configurations, instructions, responses, conversations, task categories, other task categories, task category generator, difficulty, intent, knowledge, difficulty generator, input quality, quality explanation, quality generator, Llama Guard 2, reward model, instruction reward, minimum neighbor distance, repeat count, minimum similar UUID, instruction length, response length, and language. The dataset is split into a training set with 300,000 samples. The filtering criteria for the dataset include input quality at least good, input difficulty at least medium, instruction reward greater than or equal to -10, removal of repetitive and incomplete instructions, and selection of 300,000 data points with the longest responses.

提供机构：

Magpie-Align

原始信息汇总

数据集概述

数据集信息

特征:
- uuid: 字符串
- model: 字符串
- gen_input_configs: 结构体
  - temperature: 浮点数
  - top_p: 浮点数
  - input_generator: 字符串
  - seed: 空值
  - pre_query_template: 字符串
- instruction: 字符串
- response: 字符串
- conversations: 列表
  - from: 字符串
  - value: 字符串
- task_category: 字符串
- other_task_category: 序列字符串
- task_category_generator: 字符串
- difficulty: 字符串
- intent: 字符串
- knowledge: 字符串
- difficulty_generator: 字符串
- input_quality: 字符串
- quality_explanation: 字符串
- quality_generator: 字符串
- llama_guard_2: 字符串
- reward_model: 字符串
- instruct_reward: 浮点数
- min_neighbor_distance: 浮点数
- repeat_count: 整数
- min_similar_uuid: 字符串
- instruction_length: 整数
- response_length: 整数
- language: 字符串
拆分:
- train:
  - 字节数: 1870317719.9812787
  - 样本数: 300000
下载大小: 1074875161
数据集大小: 1870317719.9812787

配置

配置名称: default
- 数据文件:
  - split: train
  - path: data/train-*

可用标签

Input Length: 指令中的字符总数
Output Length: 响应中的字符总数
Task Category: 指令的具体类别
Input Quality: 指令的清晰度、特异性和连贯性，评级为 very poor, poor, average, good, excellent
Input Difficulty: 完成指令所需的知识水平，评级为 very easy, easy, medium, hard, very hard
Minimum Neighbor Distance: 数据集中最近的邻居的嵌入距离，用于过滤重复或相似的实例
Safety: 由 meta-llama/Meta-Llama-Guard-2-8B 标记的安全标签
Reward: 奖励模型给出的特定指令-响应对的输出
Language: 指令的语言

过滤设置

Input Quality: >= good
Input Difficulty: >= medium
Instruction Reward: >=-10
移除重复和不完整的指令（例如，以 ":" 结尾的指令）
选择响应最长的 300K 数据

搜集汇总

数据集介绍

构建方式

在大型语言模型对齐领域，高质量指令数据是提升模型性能的关键。Magpie-Align/Magpie-Qwen-Air-300K-Filtered数据集采用自合成方法构建，通过利用已对齐模型Qwen/Qwen2-7B-Instruct的自回归特性，仅输入预留用户消息位置的左侧模板，模型便能生成用户查询及对应响应。初始阶段生成了300万条指令-响应对，随后经过多维度质量筛选，包括输入质量不低于“良好”、难度不低于“中等”、奖励模型评分高于-10，并移除重复或不完整指令，最终选取响应最长的30万条高质量实例，形成精炼数据集。

特点

该数据集在指令数据领域展现出显著的结构化特征与丰富元数据。每条数据均包含任务类别、难度等级、输入质量、安全标签及奖励评分等多维度标注，其中最小邻近距离指标可用于识别并过滤相似实例，确保数据多样性。数据集覆盖不同语言，并经过严格质量控制，指令清晰度与响应完整性均达到较高标准。这些特征为模型训练提供了细粒度的监督信号，支持针对特定任务属性进行定制化数据选择与模型优化。

使用方法

该数据集适用于监督微调场景，可直接用于训练或增强大型语言模型的指令遵循能力。使用者可依据任务类别、难度或质量标签对数据进行子集筛选，以适配特定训练目标。最小邻近距离参数有助于去重，提升训练效率；奖励评分可作为响应质量参考，辅助模型优化。在实践过程中，建议结合原始论文提供的代码库进行数据加载与预处理，并参考过滤设置复现高质量数据选择流程，以确保模型对齐效果达到预期基准。

背景与挑战

背景概述

在大型语言模型（LLM）对齐研究领域，高质量指令数据是提升模型遵循人类意图能力的关键。然而，尽管如Llama-3-Instruct等先进模型已公开权重，其对齐数据往往保持私有，这限制了人工智能技术的民主化进程。Magpie-Align/Magpie-Qwen-Air-300K-Filtered数据集由Magpie-Align团队于2024年提出，其核心研究问题在于如何通过自合成方法，从已对齐的LLM中规模化提取优质指令数据，以克服传统开源数据创建方法中人力成本高昂、提示范围有限等瓶颈。该数据集基于Qwen/Qwen2-7B-Instruct模型，利用Magpie框架生成并筛选出30万条高质量对话实例，旨在为社区提供多样且可靠的对齐数据资源，推动开源对齐模型的发展，并在AlpacaEval等基准测试中展现出与官方指令模型相媲美的性能潜力。

当前挑战

该数据集致力于解决指令调优领域的关键挑战：如何生成兼具多样性、复杂性与安全性的高质量指令-响应对，以有效提升模型在开放域任务中的对齐能力。构建过程中的具体挑战包括：首先，从已对齐模型中自合成数据时，需确保生成的指令不仅覆盖广泛的任务类别与难度层次，还需维持语义连贯性与逻辑合理性；其次，数据过滤环节面临质量评估的复杂性，例如需依据输入质量、难度、奖励模型得分及最小邻近距离等多维度指标进行精细筛选，以剔除重复、低质或不安全内容；此外，保持生成数据与人类偏好的一致性，避免模型陷入自我强化循环或产生偏见，亦是构建过程中需持续优化的技术难点。

常用场景

经典使用场景

在大型语言模型对齐研究领域，Magpie-Qwen-Air-300K-Filtered数据集为监督式微调提供了高质量、多样化的指令-响应对。该数据集通过自合成方法从已对齐的Qwen2-7B-Instruct模型中提取生成，经过多维度质量筛选，包含30万条涵盖不同任务类别、难度和语言的高质量对话实例。研究者通常将其作为基础训练数据，用于微调开源基础模型，以提升模型在复杂指令遵循、多轮对话和知识推理等方面的对齐性能。

解决学术问题

该数据集有效解决了高质量对齐数据稀缺且获取成本高昂的学术难题。传统方法依赖人工标注或有限范围的提示工程，难以实现大规模、多样化的数据生成。Magpie通过自合成技术直接从对齐模型中提取指令数据，突破了数据规模和多样性的限制。其意义在于为学术界提供了可复现、可分析的对齐研究基准，推动了语言模型对齐机制的透明化研究，使更多研究者能够深入探索指令微调、奖励建模等关键技术的底层原理。

衍生相关工作

基于Magpie方法论衍生的系列研究推动了开源对齐生态的发展。相关工作包括利用该数据架构进行多模态指令微调、探索低资源语言的对齐扩展，以及将其作为偏好优化阶段的优质正例数据。在模型评估方面，采用Magpie数据训练的模型在AlpacaEval、ArenaHard等基准测试中表现出色，激发了后续研究对合成数据质量评估标准、去重策略和安全性增强技术的深入探讨，形成了从数据生成到模型评估的完整研究链条。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集