Magpie-Phi3-Pro-300K-Filtered

Hugging Face2024-07-03 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/Magpie-Align/Magpie-Phi3-Pro-300K-Filtered

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由microsoft/Phi-3-medium-128k-instruct模型使用Magpie方法生成，包含300,000个高质量实例。数据集的特征包括uuid、模型名称、生成输入配置、指令、响应、对话、任务类别等。数据集通过特定的过滤条件（如输入质量、指令奖励等）筛选出高质量的数据。

创建时间：

2024-06-25

原始信息汇总

数据集概述

数据集信息

特征列表：
- uuid: 字符串
- model: 字符串
- gen_input_configs: 结构体
  - temperature: 浮点数
  - top_p: 浮点数
  - input_generator: 字符串
  - seed: 空值
  - extract_input: 字符串
- instruction: 字符串
- response: 字符串
- conversations: 列表
  - from: 字符串
  - value: 字符串
- task_category: 字符串
- other_task_category: 字符串序列
- task_category_generator: 字符串
- difficulty: 字符串
- intent: 字符串
- knowledge: 字符串
- difficulty_generator: 字符串
- input_quality: 字符串
- quality_explanation: 字符串
- quality_generator: 字符串
- llama_guard_2: 字符串
- reward_model: 字符串
- instruct_reward: 浮点数
- min_neighbor_distance: 浮点数
- repeat_count: 整数
- min_similar_uuid: 字符串
- instruction_length: 整数
- response_length: 整数
- language: 字符串
数据分割：
- train: 300,000个样本，1,574,922,147.473432字节
数据集大小：
- 下载大小：886,548,523字节
- 数据集大小：1,574,922,147.473432字节

配置信息

默认配置：
- 数据文件路径：data/train-*

可用标签

输入长度：指令中的字符总数
输出长度：响应中的字符总数
任务类别：指令的具体类别
输入质量：指令的清晰度、特异性和连贯性，评级为非常差、差、一般、好和优秀
输入难度：处理指令所需知识的水平，评级为非常简单、简单、中等、困难或非常困难
最小邻居距离：数据集中最近邻居的嵌入距离，可用于过滤重复或相似的实例
安全性：由meta-llama/Meta-Llama-Guard-2-8B标记的安全标签
奖励：奖励模型给出的特定指令-响应对的输出
语言：指令的语言

过滤设置

输入质量：>= 好
指令奖励：>=-10
移除重复和不完整的指令（例如，以:结尾）
选择300K具有最长响应的数据

搜集汇总

数据集介绍

构建方式

Magpie-Phi3-Pro-300K-Filtered数据集是通过自合成方法构建的，利用对齐的大型语言模型（如Llama-3-Instruct）生成用户查询和响应。具体而言，模型通过输入左侧模板至用户消息预留位置，利用其自回归特性生成指令和响应。随后，从生成的400万条指令中筛选出30万条高质量实例，确保数据的多样性和质量。

使用方法

Magpie-Phi3-Pro-300K-Filtered数据集适用于监督微调（SFT）任务，可用于训练和优化大型语言模型。用户可通过Hugging Face平台下载数据集，并结合提供的技术报告和代码库进行深入研究和实验。数据集的高质量特性使其在多个对齐基准测试中表现出色，能够显著提升模型的性能。

背景与挑战

背景概述

Magpie-Phi3-Pro-300K-Filtered数据集由微软Phi-3-medium-128k-instruct模型生成，基于Magpie项目开发。该数据集旨在解决大语言模型（LLMs）对齐过程中高质量指令数据稀缺的问题。Magpie项目提出了一种自合成方法，通过从已对齐的LLMs（如Llama-3-Instruct）中提取用户查询，生成大规模对齐数据。该方法利用LLMs的自回归特性，仅输入左侧模板即可生成用户查询，从而显著降低了数据生成的成本和复杂性。数据集包含300K高质量指令-响应对，涵盖了多种任务类别和难度级别，旨在提升LLMs在监督微调（SFT）中的表现。研究结果表明，使用Magpie数据进行SFT的模型在某些任务中表现优于其他公开数据集，甚至在未进行偏好优化的情况下也能取得显著效果。

当前挑战

Magpie-Phi3-Pro-300K-Filtered数据集在构建过程中面临多重挑战。首先，高质量指令数据的生成依赖于对齐LLMs的准确性和多样性，然而LLMs的生成能力受限于其训练数据的广度和深度，可能导致生成数据的多样性和质量不足。其次，数据过滤和选择过程中需平衡数据的多样性和质量，避免重复或低质量样本的引入。此外，数据集的构建需考虑指令的清晰性、任务难度和安全性等多维度因素，确保生成的数据能够有效支持LLMs的对齐任务。最后，数据集的规模和质量直接影响模型微调的效果，如何在有限资源下最大化数据集的效用，是构建过程中亟待解决的核心问题。

常用场景

经典使用场景

Magpie-Phi3-Pro-300K-Filtered数据集在自然语言处理领域中被广泛应用于大语言模型（LLMs）的对齐任务。通过对齐模型的自我合成方法，该数据集能够生成高质量的指令数据，用于模型的监督微调（SFT）。其经典使用场景包括在AlpacaEval、ArenaHard和WildBench等对齐基准测试中，评估模型在多样化任务中的表现。

解决学术问题

该数据集解决了大语言模型对齐数据稀缺和多样性的问题。通过从已对齐的LLMs中提取指令数据，Magpie-Phi3-Pro-300K-Filtered提供了一种高效且低成本的数据生成方法，显著提升了公开对齐数据集的质量和规模。这一创新不仅推动了AI民主化进程，还为研究社区提供了丰富的数据资源，助力模型在复杂任务中的表现优化。

实际应用

在实际应用中，Magpie-Phi3-Pro-300K-Filtered数据集被用于训练和优化大语言模型，特别是在需要高质量指令数据的场景中。例如，在智能客服、教育辅助工具和内容生成系统中，该数据集能够帮助模型生成更准确、连贯且符合用户需求的响应，从而提升用户体验和系统性能。

数据集最近研究