Magpie-Phi3-Pro-1M-v0.1

Hugging Face2024-07-03 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/Magpie-Align/Magpie-Phi3-Pro-1M-v0.1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由microsoft/Phi-3-medium-128k-instruct模型使用Magpie方法生成，包含多个字段如uuid、model、gen_input_configs等，每个字段都有特定的数据类型。数据集包含训练集的详细信息，如训练集的大小和样本数量。数据集的标签包括输入长度、输出长度、任务类别、输入质量、输入难度等，这些标签有助于进一步分析和使用数据集。

This dataset was generated by the microsoft/Phi-3-medium-128k-instruct model via the Magpie generation method. It comprises multiple fields including uuid, model, gen_input_configs, and others, each with a specific data type. The dataset contains detailed information about the training set, such as its size and the total number of samples. Its labels cover input length, output length, task category, input quality, input difficulty, and other metrics, which support further analysis and practical utilization of the dataset.

创建时间：

2024-06-25

原始信息汇总

数据集概述

数据集信息

特征列表:
- uuid: 字符串类型
- model: 字符串类型
- gen_input_configs: 结构体类型，包含以下字段:
  - temperature: 浮点数类型
  - top_p: 浮点数类型
  - input_generator: 字符串类型
  - seed: 空类型
  - extract_input: 字符串类型
- instruction: 字符串类型
- response: 字符串类型
- conversations: 列表类型，包含以下字段:
  - from: 字符串类型
  - value: 字符串类型
- task_category: 字符串类型
- other_task_category: 字符串序列类型
- task_category_generator: 字符串类型
- difficulty: 字符串类型
- intent: 字符串类型
- knowledge: 字符串类型
- difficulty_generator: 字符串类型
- input_quality: 字符串类型
- quality_explanation: 字符串类型
- quality_generator: 字符串类型
- llama_guard_2: 字符串类型
- reward_model: 字符串类型
- instruct_reward: 浮点数类型
- min_neighbor_distance: 浮点数类型
- repeat_count: 整数类型
- min_similar_uuid: 字符串类型
- instruction_length: 整数类型
- response_length: 整数类型
- language: 字符串类型
数据分割:
- train: 包含1,000,000个样本，总字节数为4,935,234,372字节
下载大小: 2,354,773,783字节
数据集大小: 4,935,234,372字节

配置信息

默认配置:
- config_name: default
- data_files:
  - split: train
  - path: data/train-*

可用标签

输入长度: 指令中的字符总数
输出长度: 响应中的字符总数
任务类别: 指令的具体类别
输入质量: 指令的清晰度、具体性和连贯性，评级为非常差、差、一般、好和优秀
输入难度: 处理指令所需知识的水平，评级为非常容易、容易、中等、难或非常难
最小邻居距离: 数据集中最近邻居的嵌入距离，可用于过滤重复或相似的实例
安全性: 由meta-llama/Meta-Llama-Guard-2-8B标记的安全标签
奖励: 奖励模型给出的特定指令-响应对的输出
语言: 指令的语言

数据集导航

模型名称: Phi-3 Medium Instruct
数据集: Magpie-Phi3-Pro-1M
- 类型: SFT
- 描述: 使用Phi-3 Medium Instruct构建的100万条原始对话
模型名称: Phi-3 Medium Instruct
数据集: Magpie-Phi3-Pro-300K-Filtered
- 类型: SFT
- 描述: 应用过滤器并选择30万条高质量对话

搜集汇总

数据集介绍

构建方式

Magpie-Phi3-Pro-1M-v0.1数据集的构建基于自合成方法，利用对齐的大型语言模型（如Llama-3-Instruct）生成用户查询。通过输入仅包含用户消息位置左侧的模板，模型能够自动生成指令及其对应的响应。该方法生成了400万条指令和响应，并从中筛选出30万条高质量实例。数据集的具体生成过程依赖于Phi-3-medium-128k-instruct模型，并结合了Magpie框架的实现细节。

使用方法

Magpie-Phi3-Pro-1M-v0.1数据集主要用于监督微调（SFT）任务，适用于训练和评估大型语言模型。用户可以通过HuggingFace平台下载数据集，并根据任务需求选择特定的特征进行模型训练。数据集中的高质量实例可直接用于微调，而最小邻居距离等特征则可用于进一步筛选和优化数据。此外，数据集的安全性和奖励模型输出为模型的伦理对齐和性能评估提供了重要参考。

背景与挑战

背景概述

Magpie-Phi3-Pro-1M-v0.1数据集由Magpie项目团队于2024年发布，旨在解决大规模语言模型（LLMs）对齐数据稀缺的问题。该数据集通过自合成方法生成，利用已对齐的LLMs（如Llama-3-Instruct）生成用户查询和响应，从而创建高质量的指令数据。数据集包含100万条指令-响应对，涵盖了多种任务类别和难度级别。该数据集的研究背景源于当前公开对齐数据的局限性，尤其是高人力成本和预定义提示范围的限制，Magpie的提出为大规模生成高质量对齐数据提供了新的解决方案。

当前挑战

Magpie-Phi3-Pro-1M-v0.1数据集面临的主要挑战包括：1) 数据多样性问题，尽管通过自合成方法生成了大量数据，但如何确保数据的多样性和覆盖范围仍然是一个难题；2) 数据质量控制的复杂性，尽管采用了过滤机制选择高质量实例，但在大规模数据生成过程中，如何有效评估和提升每条指令的清晰度、连贯性和任务相关性仍需进一步优化；3) 数据重复性问题，尽管通过最小邻居距离等指标过滤相似实例，但在大规模数据集中完全避免重复仍然具有挑战性。这些挑战直接影响数据集在模型对齐任务中的实际应用效果。

常用场景

经典使用场景

在自然语言处理领域，Magpie-Phi3-Pro-1M-v0.1数据集被广泛应用于大语言模型的指令微调任务中。通过该数据集，研究人员能够生成高质量的指令数据，进而提升模型在特定任务上的表现。其独特的自合成方法使得模型能够从对齐的LLM中提取出多样化的指令，从而为模型的训练提供了丰富的语料支持。

解决学术问题

Magpie-Phi3-Pro-1M-v0.1数据集解决了大语言模型在指令对齐过程中数据稀缺和质量参差不齐的问题。通过从已对齐的LLM中提取指令数据，该数据集不仅降低了人工标注的成本，还显著提升了数据的多样性和质量。这一创新方法为学术界提供了高质量的训练数据，推动了模型对齐技术的发展。

实际应用

在实际应用中，Magpie-Phi3-Pro-1M-v0.1数据集被用于优化大语言模型在复杂任务中的表现，如问答系统、对话生成和文本摘要等。通过微调模型，企业能够提升其AI产品的用户体验，增强模型的响应准确性和上下文理解能力。此外，该数据集还为多语言任务提供了支持，进一步扩展了其应用范围。

数据集最近研究