Magpie-Qwen2-Air-3M-v0.1

Hugging Face2024-07-04 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/Magpie-Align/Magpie-Qwen2-Air-3M-v0.1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个字段，用于记录不同类型的信息，如唯一标识符（uuid）、模型名称（model）、生成输入配置（gen_input_configs）等。生成输入配置是一个结构化字段，包含温度（temperature）、top_p值、输入生成器（input_generator）等子字段。数据集分为训练集，包含3000000个样本，数据集的大小和下载大小分别为13897358815字节和7302308346字节。

创建时间：

2024-07-04

原始信息汇总

数据集概述

数据集信息

特征列表:
- uuid: 字符串类型
- model: 字符串类型
- gen_input_configs: 结构体类型，包含以下字段:
  - temperature: 浮点数类型
  - top_p: 浮点数类型
  - input_generator: 字符串类型
  - seed: 空类型
  - pre_query_template: 字符串类型
- instruction: 字符串类型
- response: 字符串类型
- conversations: 列表类型，包含以下字段:
  - from: 字符串类型
  - value: 字符串类型
- task_category: 字符串类型
- other_task_category: 字符串序列类型
- task_category_generator: 字符串类型
- difficulty: 字符串类型
- intent: 字符串类型
- knowledge: 字符串类型
- difficulty_generator: 字符串类型
- input_quality: 字符串类型
- quality_explanation: 字符串类型
- quality_generator: 字符串类型
- llama_guard_2: 字符串类型
- reward_model: 字符串类型
- instruct_reward: 浮点数类型
- min_neighbor_distance: 浮点数类型
- repeat_count: 整数类型
- min_similar_uuid: 字符串类型
- instruction_length: 整数类型
- response_length: 整数类型
- language: 字符串类型
数据分割:
- train: 包含3000000个样本，占用13897358815字节
数据集大小:
- 下载大小: 7302308346字节
- 数据集大小: 13897358815字节

配置信息

默认配置:
- 数据文件路径: data/train-*

可用标签

输入长度: 指令中的字符总数
输出长度: 响应中的字符总数
任务类别: 指令的具体类别
输入质量: 指令的清晰度、特异性和连贯性，评级为非常差、差、一般、好和优秀
输入难度: 处理指令所需知识的水平，评级为非常容易、容易、中等、难或非常难
最小邻居距离: 数据集中最近邻居的嵌入距离，可用于过滤重复或相似实例
安全性: 由meta-llama/Meta-Llama-Guard-2-8B标记的安全标签
奖励: 奖励模型给出的特定指令-响应对的输出
语言: 指令的语言

搜集汇总

数据集介绍

构建方式

Magpie-Qwen2-Air-3M-v0.1数据集通过自合成方法构建，利用对齐的大型语言模型（如Llama-3-Instruct）生成用户查询和响应。具体而言，模型仅输入左侧模板至用户消息位置，利用其自回归特性生成指令和响应。该方法生成了400万条指令及其对应响应，并通过全面分析筛选出30万条高质量实例。数据集的构建过程旨在解决现有开源数据创建方法在扩展性和多样性上的局限性。

特点

该数据集包含丰富的特征，如指令长度、响应长度、任务类别、输入质量、输入难度、最小邻居距离、安全性标签、奖励模型输出以及语言信息。这些特征不仅涵盖了指令的多样性和复杂性，还通过嵌入距离和奖励模型输出等指标确保了数据的高质量和多样性。此外，数据集还通过Meta-Llama-Guard-2-8B模型对安全性进行了标注，进一步提升了数据的可靠性。

使用方法

Magpie-Qwen2-Air-3M-v0.1数据集适用于监督微调（SFT）任务，可用于训练和评估大型语言模型。用户可以通过过滤机制选择高质量的数据实例，或根据任务类别、语言等特征进行定制化训练。数据集的高质量和多样性使其在多个对齐基准测试中表现出色，如AlpacaEval、ArenaHard和WildBench。此外，数据集的安全性和奖励模型输出也为模型的进一步优化提供了有力支持。

背景与挑战

背景概述

Magpie-Qwen2-Air-3M-v0.1数据集由Qwen/Qwen2-7B-Instruct模型生成，旨在解决大规模语言模型（LLMs）对齐数据的高质量生成问题。该数据集由Magpie项目团队于2024年发布，核心研究问题在于如何通过自合成方法从已对齐的LLMs中提取高质量的指令数据，以克服现有开源数据生成方法在扩展性和多样性上的局限性。Magpie方法通过利用Llama-3-Instruct等模型的自动回归特性，生成大量指令及其响应，并通过严格的质量筛选，最终构建了包含300万条高质量对话的数据集。该数据集在AlpacaEval、ArenaHard和WildBench等对齐基准测试中表现出色，推动了LLMs对齐数据的公开化和民主化进程。

当前挑战

Magpie-Qwen2-Air-3M-v0.1数据集在构建过程中面临多重挑战。首先，如何确保生成数据的多样性和质量是一个核心问题。尽管自合成方法能够高效生成大量数据，但数据中可能存在重复或低质量样本，需要通过嵌入距离和人工筛选进行过滤。其次，数据的安全性评估至关重要，需借助Meta-Llama-Guard-2-8B等模型对生成内容进行安全标记，以避免生成有害或不适当的内容。此外，数据集的构建依赖于特定模型（如Qwen2-7B-Instruct），这可能导致数据分布偏向特定模型的行为模式，限制了其通用性。最后，如何平衡数据规模与质量，确保在扩展数据量的同时不牺牲数据的多样性和实用性，是构建大规模对齐数据集的关键挑战。

常用场景

经典使用场景

Magpie-Qwen2-Air-3M-v0.1数据集在自然语言处理领域中的经典使用场景主要集中在大规模语言模型的指令微调（SFT）任务中。通过利用该数据集，研究人员能够对预训练的语言模型进行精细化的指令对齐，从而提升模型在特定任务上的表现。该数据集包含了300万条高质量的指令-响应对，涵盖了多种任务类别和难度级别，为模型提供了丰富的训练样本。

实际应用

在实际应用中，Magpie-Qwen2-Air-3M-v0.1数据集被广泛用于开发智能助手、客服系统以及教育领域的自动问答系统。通过对该数据集的微调，模型能够更好地理解用户意图，生成更加准确和自然的响应。此外，该数据集还被用于构建多语言对话系统，支持跨语言的指令理解和响应生成，提升了全球化应用的适应性。

衍生相关工作

基于Magpie-Qwen2-Air-3M-v0.1数据集，衍生了一系列经典研究工作。例如，研究人员利用该数据集对Llama-3-8B模型进行微调，并在AlpacaEval、ArenaHard等基准测试中取得了与官方模型相当的性能。此外，该数据集还被用于探索指令数据的自合成方法，推动了大规模语言模型对齐技术的进一步发展，相关成果已在多个顶级学术会议和期刊上发表。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集