Magpie-Qwen2-Pro-1M-v0.1

Hugging Face2024-06-25 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/Magpie-Align/Magpie-Qwen2-Pro-1M-v0.1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由Qwen/Qwen2-72B-Instruct使用Magpie生成，旨在提供大规模高质量的指令数据，用于对齐大型语言模型。数据集包含多种标签，如指令长度、响应长度、任务类别、输入质量、输入难度、最小邻域距离、安全性、奖励和语言。这些数据用于微调模型，并与其它公共指令数据集进行性能比较。

创建时间：

2024-06-25

原始信息汇总

数据集概述

数据集信息

特征列表:
- uuid: 字符串类型
- model: 字符串类型
- gen_input_configs: 结构体，包含以下字段:
  - temperature: 浮点数类型
  - top_p: 浮点数类型
  - input_generator: 字符串类型
  - seed: 空类型
  - extract_input: 字符串类型
- instruction: 字符串类型
- response: 字符串类型
- conversations: 列表，包含以下字段:
  - from: 字符串类型
  - value: 字符串类型
- task_category: 字符串类型
- other_task_category: 字符串序列
- task_category_generator: 字符串类型
- difficulty: 字符串类型
- intent: 字符串类型
- knowledge: 字符串类型
- difficulty_generator: 字符串类型
- input_quality: 字符串类型
- quality_explanation: 字符串类型
- quality_generator: 字符串类型
- llama_guard_2: 字符串类型
- reward_model: 字符串类型
- instruct_reward: 浮点数类型
- min_neighbor_distance: 浮点数类型
- repeat_count: 整数类型
- min_similar_uuid: 字符串类型
- instruction_length: 整数类型
- response_length: 整数类型
- language: 字符串类型
数据分割:
- train: 包含1,000,000个样本，总字节数为4,271,822,124
数据集大小:
- 下载大小: 2,145,751,266字节
- 数据集大小: 4,271,822,124字节
配置:
- default配置:
  - 数据文件路径: data/train-*

可用标签

输入长度: 指令中的字符总数
输出长度: 响应中的字符总数
任务类别: 指令的具体类别
输入质量: 指令的清晰度、特异性和连贯性，评级为非常差、差、一般、好和优秀
输入难度: 完成指令所需知识的水平，评级为非常容易、容易、中等、难或非常难
最小邻居距离: 数据集中最近邻居的嵌入距离，用于过滤重复或相似的实例
安全性: 由meta-llama/Meta-Llama-Guard-2-8B标记的安全标签
奖励: 奖励模型对特定指令-响应对的输出
语言: 指令的语言

搜集汇总

数据集介绍

构建方式

Magpie-Qwen2-Pro-1M-v0.1数据集的构建基于一种自合成方法，通过利用对齐的大型语言模型（如Llama-3-Instruct）的自动回归特性，生成用户查询。具体而言，模型仅需输入左侧模板至用户消息预留位置，即可生成指令及其对应的响应。该方法通过Qwen/Qwen2-72B-Instruct模型生成400万条指令，并从中筛选出30万条高质量实例，确保了数据的多样性和质量。

特点

该数据集包含丰富的特征字段，如指令长度、响应长度、任务类别、输入质量、输入难度、最小邻居距离、安全性标签、奖励模型输出以及语言信息等。这些特征不仅涵盖了指令的多样性和复杂性，还通过嵌入距离和奖励模型评估数据的独特性和质量，为模型训练提供了多维度的参考依据。

使用方法

Magpie-Qwen2-Pro-1M-v0.1数据集主要用于监督微调（SFT）任务，以提升大型语言模型的指令对齐能力。用户可通过HuggingFace平台下载数据集，并结合具体任务需求进行模型训练和评估。数据集中的高质量实例可直接用于微调，而嵌入距离和奖励模型输出则可用于进一步筛选和优化训练数据，从而提升模型的性能和泛化能力。

背景与挑战

背景概述

Magpie-Qwen2-Pro-1M-v0.1数据集由Qwen/Qwen2-72B-Instruct模型生成，旨在为大语言模型（LLMs）的对齐提供高质量的指令数据。该数据集基于Magpie项目，该项目提出了一种自合成方法，通过从已对齐的LLM中提取指令数据，解决了现有开源数据创建方法在扩展性和多样性上的局限性。数据集的核心研究问题在于如何通过自动化手段生成大规模、高质量的指令数据，以提升LLM的对齐效果。Magpie项目的研究成果已在多个对齐基准测试中展现出显著优势，推动了AI民主化进程。

当前挑战

Magpie-Qwen2-Pro-1M-v0.1数据集在构建过程中面临多重挑战。首先，如何确保生成指令数据的多样性和质量是一个关键问题，尽管自合成方法能够自动化生成数据，但仍需通过复杂的过滤机制筛选出高质量实例。其次，数据集中包含的指令长度、任务类别、输入质量等标签的标注需要高度精确，这对模型的生成能力和人工审核提出了较高要求。此外，数据集的安全性评估依赖于Meta-Llama-Guard-2-8B模型，如何确保生成内容的安全性也是一个重要挑战。最后，数据集的扩展性和跨语言适应性仍需进一步优化，以满足不同场景下的需求。

常用场景

经典使用场景

Magpie-Qwen2-Pro-1M-v0.1数据集在自然语言处理领域中被广泛应用于大规模语言模型的微调任务。通过该数据集，研究人员能够生成高质量的指令数据，用于提升模型的对话生成能力和任务执行效果。特别是在多轮对话和复杂指令理解任务中，该数据集展现了其独特的优势。

解决学术问题

该数据集解决了大规模语言模型对齐数据稀缺的问题，尤其是在高质量指令数据的生成和筛选方面。通过自合成方法，Magpie-Qwen2-Pro-1M-v0.1能够生成多样化的指令数据，显著提升了模型在特定任务上的表现。这一突破为语言模型的民主化发展提供了重要支持，减少了对外部私有数据的依赖。

衍生相关工作

基于Magpie-Qwen2-Pro-1M-v0.1数据集，研究人员开发了多个经典模型和应用。例如，Qwen2-72B-Instruct模型的微调版本在多个基准测试中表现优异，尤其是在AlpacaEval和WildBench等对齐任务中。此外，该数据集还推动了UltraFeedback等偏好优化方法的发展，进一步提升了语言模型的性能。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集