Magpie-Qwen2-Pro-200K-English

Hugging Face2024-07-02 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/Magpie-Align/Magpie-Qwen2-Pro-200K-English

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个特征，如uuid、model、gen_input_configs等，每个特征都有其特定的数据类型。gen_input_configs是一个结构化特征，包含多个子特征。数据集分为训练集，包含200000个样本。数据集的大小和下载大小也有明确记录。

This dataset includes multiple features, such as uuid, model, gen_input_configs and others, each with its specific data type. gen_input_configs is a structured feature that encompasses multiple sub-features. The dataset is split into a training set containing 200,000 samples. The size of the dataset and its download size are also explicitly recorded.

创建时间：

2024-07-02

原始信息汇总

数据集概述

数据集信息

特征列表:
- uuid: 字符串
- model: 字符串
- gen_input_configs: 结构体
  - temperature: 浮点数
  - top_p: 浮点数
  - input_generator: 字符串
  - seed: 空值
  - extract_input: 字符串
- instruction: 字符串
- response: 字符串
- conversations: 列表
  - from: 字符串
  - value: 字符串
- task_category: 字符串
- other_task_category: 序列字符串
- task_category_generator: 字符串
- difficulty: 字符串
- intent: 字符串
- knowledge: 字符串
- difficulty_generator: 字符串
- input_quality: 字符串
- quality_explanation: 字符串
- quality_generator: 字符串
- llama_guard_2: 字符串
- reward_model: 字符串
- instruct_reward: 浮点数
- min_neighbor_distance: 浮点数
- repeat_count: 整数
- min_similar_uuid: 字符串
- instruction_length: 整数
- response_length: 整数
- language: 字符串
数据分割:
- train: 200,000个样本，大小为1,007,184,254.428362字节
数据集大小:
- 下载大小: 599,475,522字节
- 数据集大小: 1,007,184,254.428362字节
配置:
- default配置:
  - train分割: data/train-*路径

可用标签

输入长度: 指令中的字符总数
输出长度: 响应中的字符总数
任务类别: 指令的具体类别
输入质量: 指令的清晰度、具体性和连贯性，评级为非常差、差、一般、好和优秀
输入难度: 处理指令所需知识的水平，评级为非常容易、容易、中等、难或非常难
最小邻居距离: 数据集中最近邻居的嵌入距离，可用于过滤重复或相似实例
安全性: 由meta-llama/Meta-Llama-Guard-2-8B标记的安全标签
奖励: 奖励模型给出的特定指令-响应对的输出
语言: 指令的语言

过滤设置

输入质量: ≥ 好
指令奖励: ≥ -10
语言: 英语
移除重复和不完整的指令（例如，以":"结尾）
选择响应最长的200,000个数据

数据集导航

Qwen2 72B Instruct:
- Magpie-Qwen2-Pro-1M: 100万原始对话
- Magpie-Qwen2-Pro-300K-Filtered: 应用过滤器选择30万高质量对话
- Magpie-Qwen2-Pro-200K-Chinese: 应用过滤器选择20万高质量中文对话
- Magpie-Qwen2-Pro-200K-English: 应用过滤器选择20万高质量英语对话

搜集汇总

数据集介绍

构建方式

Magpie-Qwen2-Pro-200K-English数据集的构建基于自合成方法，利用对齐的大型语言模型（如Llama-3-Instruct）生成用户查询。通过输入仅包含左侧模板的提示，模型能够自动生成用户消息，从而产生大量指令及其响应。随后，通过综合分析和筛选，从生成的400万条指令中精选出30万条高质量实例，最终形成该数据集。

特点

该数据集包含丰富的特征字段，如指令长度、响应长度、任务类别、输入质量、输入难度、最小邻居距离等。输入质量分为‘非常差’到‘优秀’五个等级，输入难度则从‘非常容易’到‘非常困难’五个级别。此外，数据集还包含安全标签和奖励模型输出，确保数据的多样性和高质量。所有数据均为英文，且经过严格的重复和不完整指令过滤。

使用方法

Magpie-Qwen2-Pro-200K-English数据集适用于监督微调（SFT）任务，尤其适合用于提升大型语言模型的指令对齐能力。用户可通过Hugging Face平台直接下载数据集，并结合Qwen2-72B-Instruct模型进行微调。数据集中的高质量指令和响应对可用于训练模型，以提升其在特定任务上的表现。此外，数据集的最小邻居距离字段可用于过滤重复或相似实例，进一步提升训练效果。

背景与挑战

背景概述

Magpie-Qwen2-Pro-200K-English数据集是由Qwen/Qwen2-72B-Instruct模型生成的，旨在为大语言模型（LLMs）的对齐任务提供高质量的指令数据。该数据集的创建基于Magpie项目，该项目提出了一种自合成方法，通过从已对齐的LLM中提取指令数据，解决了现有开源数据创建方法在扩展性和多样性上的局限性。数据集的核心研究问题在于如何高效生成大规模、高质量的指令数据，以支持LLM的对齐任务。该数据集的研究成果已在arXiv上发布，并展示了在某些任务上，使用Magpie数据进行微调的模型性能与官方Llama-3-8B-Instruct模型相当，甚至超越了其他公开数据集。

当前挑战

Magpie-Qwen2-Pro-200K-English数据集在构建过程中面临的主要挑战包括：1) 数据质量的保证，尽管通过自合成方法生成了大量指令数据，但如何从中筛选出高质量、多样化的实例仍是一个难题；2) 数据重复与相似性问题，尽管通过最小邻居距离等指标进行过滤，但仍需进一步优化以去除冗余数据；3) 指令的多样性与复杂性平衡，如何在保证指令清晰、具体的同时，涵盖广泛的任务类别和难度级别，是数据集构建中的关键挑战。此外，数据集的安全性和伦理问题也需要在生成过程中进行严格把控，以确保生成的指令数据符合社会伦理标准。

常用场景

经典使用场景

在自然语言处理领域，Magpie-Qwen2-Pro-200K-English数据集被广泛用于训练和评估大型语言模型（LLMs）。通过该数据集，研究人员能够生成高质量的指令数据，进而优化模型的指令对齐能力。其经典使用场景包括模型微调、指令生成任务以及模型对齐性能的评估。

实际应用

在实际应用中，Magpie-Qwen2-Pro-200K-English数据集被用于开发智能助手、聊天机器人以及自动化客服系统。通过使用该数据集，企业能够训练出更加智能、响应更加准确的AI系统，从而提升用户体验和服务效率。此外，该数据集还被用于教育领域，帮助开发智能教学工具。

衍生相关工作

基于Magpie-Qwen2-Pro-200K-English数据集，研究者们开发了多种经典工作。例如，利用该数据集进行监督微调（SFT）的模型在AlpacaEval、ArenaHard和WildBench等对齐基准测试中表现优异。此外，该数据集还被用于探索指令生成与模型对齐的新方法，推动了自然语言处理领域的前沿研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集