Magpie-Align/Magpie-Qwen2-Pro-200K-Chinese

Name: Magpie-Align/Magpie-Qwen2-Pro-200K-Chinese
Creator: Magpie-Align
Published: 2024-08-22 21:12:11
License: 暂无描述

Hugging Face2024-08-22 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/Magpie-Align/Magpie-Qwen2-Pro-200K-Chinese

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是通过Magpie方法生成的，使用了Qwen/Qwen2-72B-Instruct模型。数据集包含多个特征，如输入长度、输出长度、任务类别、输入质量、输入难度、最小邻居距离、安全性、奖励和语言等。数据集经过过滤，选择了高质量的中文对话数据，并提供了不同版本的过滤数据集。

This dataset is generated using the Magpie method with the Qwen/Qwen2-72B-Instruct model. It includes multiple features such as input length, output length, task category, input quality, input difficulty, minimum neighbor distance, safety, reward, and language. The dataset has been filtered to select high-quality Chinese conversation data and provides different versions of filtered datasets.

提供机构：

Magpie-Align

原始信息汇总

数据集概述

数据集信息

特征

uuid: 字符串类型
model: 字符串类型
gen_input_configs: 结构体类型
- temperature: 浮点数类型
- top_p: 浮点数类型
- input_generator: 字符串类型
- seed: 空类型
- extract_input: 字符串类型
instruction: 字符串类型
response: 字符串类型
conversations: 列表类型
- from: 字符串类型
- value: 字符串类型
task_category: 字符串类型
other_task_category: 序列类型
task_category_generator: 字符串类型
difficulty: 字符串类型
intent: 字符串类型
knowledge: 字符串类型
difficulty_generator: 字符串类型
input_quality: 字符串类型
quality_explanation: 字符串类型
quality_generator: 字符串类型
llama_guard_2: 字符串类型
reward_model: 字符串类型
instruct_reward: 浮点数类型
min_neighbor_distance: 浮点数类型
repeat_count: 整数类型
min_similar_uuid: 字符串类型
instruction_length: 整数类型
response_length: 整数类型
language: 字符串类型

数据分割

train: 包含200,000个样本，数据大小为898,262,675.9375356字节

数据集大小

下载大小: 483,456,525字节
数据集大小: 898,262,675.9375356字节

配置

default: 包含训练数据文件，路径为data/train-*

任务类别

question-answering

语言

可用标签

Input Length: 指令中的字符总数
Output Length: 响应中的字符总数
Task Category: 指令的具体类别
Input Quality: 指令的清晰度、特异性和连贯性，评级为very poor, poor, average, good, excellent
Input Difficulty: 完成任务所需的知识水平，评级为very easy, easy, medium, hard, very hard
Minimum Neighbor Distance: 数据集中最近的邻居的嵌入距离，用于过滤重复或相似的实例
Safety: 由meta-llama/Meta-Llama-Guard-2-8B标记的安全标签
Reward: 奖励模型给出的特定指令-响应对的输出
Language: 指令的语言

过滤设置

Input Quality: ≥ good
Instruction Reward: ≥ -10
Language: 中文
移除重复和不完整的指令（例如，以“:”结尾的指令）
选择响应最长的200,000条数据

搜集汇总

数据集介绍

构建方式

在大型语言模型对齐研究领域，数据质量直接决定模型性能上限。Magpie-Align/Magpie-Qwen2-Pro-200K-Chinese采用创新的自合成方法构建，其核心在于利用已对齐模型Qwen2-72B-Instruct的自回归特性，仅输入预留用户消息位置的左侧模板，即可激发模型生成完整的用户查询与对应响应。原始生成数据经过多维度质量过滤：保留输入质量评级在“平均”及以上、指令奖励值不低于-10的纯中文样本，同时剔除重复及不完整指令，最终依据响应长度筛选出二十万条高质量对话实例，形成精炼的中文指令数据集。

特点

该数据集在中文指令对齐领域展现出显著特征。其结构设计精细，每条数据均包含指令、响应、对话序列及多维元数据标签，涵盖任务类别、输入质量、难度等级、安全评估和奖励分数等丰富维度。独特之处在于引入最小邻近距离指标，可量化样本间语义相似度，为数据去重和多样性分析提供依据。数据集严格限定为中文语境，响应长度经过优化筛选，确保语言一致性与内容深度，为中文大语言模型对齐研究提供了标准化、可追溯的高质量语料。

使用方法

该数据集专为监督微调场景设计，适用于提升中文大语言模型的指令遵循与对话能力。研究人员可直接加载数据集进行模型训练，利用其丰富的元数据标签实现精细化训练控制：例如根据输入质量或难度字段进行分层采样，或依据最小邻近距离过滤高度相似样本以增强数据多样性。安全标签与奖励分数可用于构建安全对齐或强化学习训练流程。数据集兼容主流训练框架，建议结合原始论文中的过滤配置复现实验，或基于提供的质量维度探索定制化训练策略，以优化模型在中文评估基准上的表现。

背景与挑战

背景概述

在大型语言模型对齐研究领域，高质量指令数据是提升模型性能与安全性的核心要素。Magpie-Align/Magpie-Qwen2-Pro-200K-Chinese数据集由Magpie-Align团队于2024年基于其提出的自合成方法构建，旨在解决开源对齐数据稀缺且质量参差不齐的难题。该数据集通过Qwen2-72B-Instruct模型生成，并经过严格筛选，最终收录了20万条高质量中文指令-响应对。其核心研究问题聚焦于如何从已对齐的大型语言模型中规模化提取优质指令数据，以推动人工智能技术的民主化进程，为中文社区提供了宝贵的监督微调资源，对促进跨语言模型对齐研究具有显著影响力。

当前挑战

该数据集致力于应对指令微调领域的两大挑战：一是如何确保生成指令的多样性与高质量，以覆盖广泛的任务类别与难度层次，避免模型陷入狭隘的响应模式；二是在构建过程中，需有效克服数据重复性过滤、指令完整性校验以及多维度质量评估的复杂性，例如通过最小邻近距离、奖励模型分数及安全性标签等多重指标进行精细筛选。此外，从预训练模型中提取对齐数据时，还需平衡生成效率与内容安全性，确保数据既丰富又符合伦理规范。

常用场景

经典使用场景

在大型语言模型对齐研究领域，Magpie-Align/Magpie-Qwen2-Pro-200K-Chinese数据集作为高质量中文指令微调数据的典范，其经典使用场景集中于监督式微调过程。该数据集通过自合成方法从已对齐的Qwen2-72B-Instruct模型中提取指令-响应对，为研究者提供了经过多维度质量筛选的标准化训练样本。在模型优化实践中，该数据集常被用于基础语言模型的指令跟随能力培养，通过其结构化的对话数据与丰富的元数据标注，有效支撑模型在多样化任务上的泛化性能提升。

衍生相关工作

围绕该数据集衍生的经典工作主要体现在对齐数据合成与评估范式的创新上。其技术报告提出的自合成方法启发了后续研究对模型内部知识蒸馏效率的深入探索。基于该数据集构建的评估基准，如与AlpacaEval、ArenaHard等对齐基准的对比实验，为公开指令数据集的性能评估设立了新的参照系。相关工作进一步拓展了数据过滤策略的优化，例如利用最小邻近距离进行去重，以及结合多维度质量指标构建分层训练数据，这些方法已成为后续高质量数据集构建的重要技术遗产。

数据集最近研究