Magpie-Qwen-Air-300K-Filtered

Hugging Face2024-07-05 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/Magpie-Align/Magpie-Qwen-Air-300K-Filtered

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由Qwen/Qwen2-7B-Instruct模型使用Magpie方法生成，包含300,000条高质量对话实例。数据集的特征包括UUID、模型名称、生成输入配置、指令、响应、对话记录、任务类别、其他任务类别、任务类别生成器、难度、意图、知识、难度生成器、输入质量、质量解释、质量生成器、Llama Guard 2、奖励模型、指令奖励、最小邻居距离、重复计数、最小相似UUID、指令长度、响应长度和语言。数据集分为训练集，具有详细的标签信息，如输入长度、输出长度、任务类别、输入质量、输入难度、最小邻居距离、安全性、奖励和语言。数据集经过筛选，确保输入质量和难度达到一定标准，并移除重复和不完整的指令。

创建时间：

2024-07-05

原始信息汇总

数据集概述

数据集信息

特征列表:
- uuid: 字符串类型
- model: 字符串类型
- gen_input_configs: 结构体类型，包含以下字段：
  - temperature: 浮点数类型
  - top_p: 浮点数类型
  - input_generator: 字符串类型
  - seed: 空类型
  - pre_query_template: 字符串类型
- instruction: 字符串类型
- response: 字符串类型
- conversations: 列表类型，包含以下字段：
  - from: 字符串类型
  - value: 字符串类型
- task_category: 字符串类型
- other_task_category: 字符串序列类型
- task_category_generator: 字符串类型
- difficulty: 字符串类型
- intent: 字符串类型
- knowledge: 字符串类型
- difficulty_generator: 字符串类型
- input_quality: 字符串类型
- quality_explanation: 字符串类型
- quality_generator: 字符串类型
- llama_guard_2: 字符串类型
- reward_model: 字符串类型
- instruct_reward: 浮点数类型
- min_neighbor_distance: 浮点数类型
- repeat_count: 整数类型
- min_similar_uuid: 字符串类型
- instruction_length: 整数类型
- response_length: 整数类型
- language: 字符串类型
数据分割:
- train: 包含300,000个样本，总字节数为1,870,317,719.9812787
数据集大小:
- 下载大小: 1,074,875,161字节
- 数据集大小: 1,870,317,719.9812787字节

配置信息

默认配置:
- 数据文件路径: data/train-*

可用标签

输入长度: 指令中的字符总数
输出长度: 响应中的字符总数
任务类别: 指令的具体类别
输入质量: 指令的清晰度、特异性和连贯性，评级为非常差、差、一般、好和优秀
输入难度: 完成指令所需知识的水平，评级为非常容易、容易、中等、困难或非常困难
最小邻居距离: 数据集中最近的邻居的嵌入距离，用于过滤重复或相似的实例
安全性: 由meta-llama/Meta-Llama-Guard-2-8B标记的安全标签
奖励: 奖励模型给出的特定指令-响应对的输出
语言: 指令的语言

过滤设置

输入质量: ≥ 好
输入难度: ≥ 中等
指令奖励: >=-10
移除重复和不完整的指令（例如，以":"结尾的指令）
选择300,000个具有最长响应的数据

搜集汇总

数据集介绍

构建方式

Magpie-Qwen-Air-300K-Filtered数据集的构建基于自合成方法，利用对齐的大型语言模型（如Llama-3-Instruct）生成用户查询。通过输入仅包含左侧模板的提示，模型能够自动生成用户消息，从而产生大规模的指令数据。该方法生成了400万条指令及其对应响应，经过全面分析后，筛选出30万条高质量实例。数据集通过Qwen/Qwen2-7B-Instruct模型生成，并应用了严格的过滤标准，确保数据的多样性和质量。

使用方法

Magpie-Qwen-Air-300K-Filtered数据集主要用于监督微调（SFT）任务，适用于训练和评估大型语言模型。用户可以通过Hugging Face平台下载数据集，并利用其丰富的元信息进行模型训练和性能评估。数据集中的任务类别、输入质量和难度等标签可用于定制化训练，提升模型在特定任务上的表现。此外，数据集的最小邻居距离信息可用于过滤重复或相似的实例，确保训练数据的多样性。

背景与挑战

背景概述

Magpie-Qwen-Air-300K-Filtered数据集是由Qwen/Qwen2-7B-Instruct模型通过Magpie方法生成的高质量指令数据集，旨在解决大语言模型（LLMs）对齐问题。该数据集由Magpie-Align团队于2024年发布，其核心研究问题在于如何通过自合成方法从已对齐的LLMs中提取大规模、高质量的指令数据，以替代传统依赖人工标注的高成本方法。Magpie方法通过利用LLMs的自回归特性，生成用户查询及其响应，从而显著提升了数据生成的效率和多样性。该数据集在多个对齐基准测试中表现出色，部分任务的表现甚至可与官方Llama-3-8B-Instruct模型相媲美，展示了其在推动AI民主化方面的潜力。

当前挑战

Magpie-Qwen-Air-300K-Filtered数据集在构建过程中面临多重挑战。首先，如何确保生成指令的多样性和高质量是一个核心问题，尽管Magpie方法通过自回归生成显著提升了数据规模，但仍需通过严格的过滤机制（如输入质量、难度和奖励模型评分）来筛选出高质量样本。其次，数据重复性和相似性问题也需通过最小邻居距离等指标进行控制，以避免模型训练中的过拟合现象。此外，数据集的安全性评估依赖于Meta-Llama-Guard-2-8B模型，但其对复杂指令的判别能力仍需进一步验证。最后，尽管Magpie方法降低了人工成本，但其生成数据的真实性和实用性仍需通过广泛的基准测试和实际应用场景进行验证。

常用场景

经典使用场景

在自然语言处理领域，Magpie-Qwen-Air-300K-Filtered数据集被广泛用于大规模语言模型的监督微调（SFT）。该数据集通过从已对齐的LLM中提取高质量的指令数据，为模型提供了丰富的训练样本，帮助模型在生成任务中表现出色。特别是在多轮对话生成、指令理解和响应生成等任务中，该数据集展现了其独特的优势。

解决学术问题

Magpie-Qwen-Air-300K-Filtered数据集解决了大规模语言模型对齐数据稀缺的问题。通过自合成方法生成高质量的指令数据，该数据集弥补了现有开源数据在多样性和质量上的不足。研究表明，使用该数据集进行微调的模型在多个对齐基准测试中表现优异，甚至超越了使用其他公开数据集进行监督微调和偏好优化的模型。

实际应用

在实际应用中，Magpie-Qwen-Air-300K-Filtered数据集被用于开发智能对话系统、虚拟助手和自动化客服系统。其高质量的指令数据能够显著提升模型的对话流畅性和任务完成能力，使其在复杂场景下表现出色。此外，该数据集还被用于教育领域，帮助开发智能教学助手，为学生提供个性化的学习支持。

数据集最近研究