Magpie-Reasoning-150K

Hugging Face2024-07-20 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/Magpie-Align/Magpie-Reasoning-150K

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由Qwen2-72B-Instruct和Llama 3 70B Instruct使用Magpie方法生成，包含150,000条高质量指令和响应对，旨在通过这些对来增强模型的推理能力。数据集特征包括uuid、instruction、response等，以及一些配置和分割信息。数据集经过筛选，确保输入质量为‘好’或以上，难度为‘简单’或以上，任务类别包括推理、数学、编码与调试，语言为英语，并去除了重复和不完整的指令，选择了150K条最长响应的数据。

创建时间：

2024-07-12

原始信息汇总

数据集概述

数据集信息

特征字段:
- uuid: 字符串类型
- instruction: 字符串类型
- response: 字符串类型
- conversations: 列表类型，包含 from 和 value，均为字符串类型
- gen_input_configs: 结构体类型，包含 temperature（浮点数类型）、top_p（浮点数类型）、input_generator（字符串类型）、seed（空类型）、extract_input（字符串类型）
- gen_response_configs: 结构体类型，包含 prompt（字符串类型）、temperature（整数类型）、top_p（浮点数类型）、repetition_penalty（浮点数类型）、max_tokens（整数类型）、stop_tokens（字符串序列类型）、output_generator（字符串类型）
- intent: 字符串类型
- knowledge: 字符串类型
- difficulty: 字符串类型
- difficulty_generator: 字符串类型
- input_quality: 字符串类型
- quality_explanation: 字符串类型
- quality_generator: 字符串类型
- task_category: 字符串类型
- other_task_category: 字符串序列类型
- task_category_generator: 字符串类型
- language: 字符串类型
数据分割:
- train: 包含 150000 个样本，总大小为 833223418 字节
下载大小: 368443556 字节
数据集大小: 833223418 字节

配置信息

配置名称: default
数据文件:
- train: 路径为 data/train-*

许可证

llama3

语言

英语

大小分类

100K<n<1M

搜集汇总

数据集介绍

构建方式

Magpie-Reasoning-150K数据集的构建采用了自合成方法，通过利用对齐的大型语言模型（如Llama-3-Instruct）生成用户查询和响应。具体而言，Qwen2-72B-Instruct负责生成指令，而Llama 3 70B Instruct则生成相应的响应。该方法的核心在于利用对齐模型的自动回归特性，仅输入左侧模板即可生成完整的用户查询。通过这种方式，生成了400万条指令及其响应，并从中筛选出30万条高质量实例。

使用方法

Magpie-Reasoning-150K数据集主要用于增强模型的推理能力，特别适用于监督微调（SFT）任务。用户可以通过HuggingFace平台获取该数据集，并参考提供的技术报告和代码库进行模型微调。数据集的使用需遵循Meta Llama 3社区许可证、Tongyi Qianwen许可证协议以及CC BY-NC 4.0许可协议。通过微调Llama-3-8B-Base等模型，用户可以在AlpacaEval、ArenaHard和WildBench等对齐基准测试中评估模型性能。

背景与挑战

背景概述

Magpie-Reasoning-150K数据集由Magpie-Align团队于2024年发布，旨在通过高质量指令-响应对增强大语言模型的推理能力。该数据集的核心研究问题是如何通过自合成方法从已对齐的大语言模型（如Llama-3-Instruct）中提取大规模对齐数据，以解决现有开源数据创建方法在扩展性和多样性上的局限性。数据集通过Qwen2-72B-Instruct生成指令，并由Llama 3 70B Instruct生成响应，涵盖了推理、数学、编程与调试等任务类别。该数据集的研究成果已在arXiv上发布，并在多个对齐基准测试中表现出色，推动了AI对齐数据的民主化进程。

当前挑战

Magpie-Reasoning-150K数据集在构建过程中面临多重挑战。首先，如何从已对齐的大语言模型中高效提取高质量指令数据是一个核心问题，尽管Llama-3-Instruct等模型具有自回归特性，但其对齐数据仍为私有，限制了数据的多样性和质量。其次，数据生成过程中需确保指令和响应的多样性与复杂性，同时避免重复和不完整的指令。此外，数据过滤和选择标准（如输入质量、难度和任务类别）的制定与实施也需精细设计，以确保最终数据集的高质量。这些挑战不仅影响了数据集的构建效率，也对模型的推理能力提升提出了更高的要求。

常用场景

经典使用场景

在自然语言处理领域，Magpie-Reasoning-150K数据集被广泛应用于大语言模型的推理能力增强。通过提供高质量的指令-响应对，该数据集能够有效提升模型在复杂任务中的表现，尤其是在数学推理、代码调试等需要高逻辑性的任务中。研究人员利用该数据集进行监督微调，显著提升了模型在推理任务中的准确性和鲁棒性。

解决学术问题

Magpie-Reasoning-150K数据集解决了大语言模型在推理任务中数据稀缺和质量不足的问题。通过从已对齐的模型中提取高质量的指令数据，该数据集为研究社区提供了一个可扩展且多样化的数据来源，显著提升了模型在推理任务中的表现。这一突破不仅降低了数据生成的成本，还为模型的进一步优化提供了坚实的基础。

实际应用

在实际应用中，Magpie-Reasoning-150K数据集被用于开发智能助手和教育工具。通过利用该数据集训练的模型，能够更好地理解和回应用户的复杂指令，提供更准确的数学解答、代码调试建议等。这种能力在教育、编程辅助等领域具有广泛的应用前景，显著提升了用户体验和效率。

数据集最近研究