Magpie-Qwen2-Pro-200K-Chinese

Hugging Face2024-07-03 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/Magpie-Align/Magpie-Qwen2-Pro-200K-Chinese

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由Qwen/Qwen2-72B-Instruct模型使用Magpie方法生成，包含200,000个样本，主要用于中文问题回答任务。数据集特征丰富，包括uuid、模型名称、生成输入配置、指令、响应、对话、任务类别等。数据集通过过滤确保高质量，如输入质量至少为'good'，指令奖励大于等于-10，语言为中文，并移除重复和不完整的指令。

This dataset, generated by the Qwen/Qwen2-72B-Instruct model via the Magpie method, comprises 200,000 samples and is primarily intended for Chinese question answering tasks. It includes rich metadata fields such as UUID, model name, generation input configuration, instruction, response, dialogue, task category, and more. High-quality standards are enforced through strict filtering criteria: the input quality is rated at least 'good', the instruction reward score is no less than -10, the language is restricted to Chinese, and duplicate or incomplete instructions are excluded.

创建时间：

2024-06-26

原始信息汇总

数据集概述

数据集信息

特征列表:
- uuid: 字符串
- model: 字符串
- gen_input_configs: 结构体
  - temperature: 浮点数
  - top_p: 浮点数
  - input_generator: 字符串
  - seed: 空
  - extract_input: 字符串
- instruction: 字符串
- response: 字符串
- conversations: 列表
  - from: 字符串
  - value: 字符串
- task_category: 字符串
- other_task_category: 序列字符串
- task_category_generator: 字符串
- difficulty: 字符串
- intent: 字符串
- knowledge: 字符串
- difficulty_generator: 字符串
- input_quality: 字符串
- quality_explanation: 字符串
- quality_generator: 字符串
- llama_guard_2: 字符串
- reward_model: 字符串
- instruct_reward: 浮点数
- min_neighbor_distance: 浮点数
- repeat_count: 整数
- min_similar_uuid: 字符串
- instruction_length: 整数
- response_length: 整数
- language: 字符串
数据分割:
- train: 200,000个样本，大小为898,262,675.9375356字节
下载大小: 483,456,525字节
数据集大小: 898,262,675.9375356字节

配置信息

默认配置:
- 数据文件路径: data/train-*

任务类别

问答

语言

中文

可用标签

输入长度: 指令中的字符总数
输出长度: 响应中的字符总数
任务类别: 指令的具体类别
输入质量: 指令的清晰度、具体性和连贯性，评级为非常差、差、一般、好和优秀
输入难度: 处理指令所需知识的水平，评级为非常容易、容易、中等、难或非常难
最小邻居距离: 数据集中最近邻居的嵌入距离，可用于过滤重复或相似实例
安全性: 由meta-llama/Meta-Llama-Guard-2-8B标记的安全标签
奖励: 奖励模型给出的特定指令-响应对的输出
语言: 指令的语言

过滤设置

输入质量: ≥ 好
指令奖励: ≥ -10
语言: 中文
移除重复和不完整的指令（例如，以“:”结尾）
选择200K个响应最长的数据

数据集导航

模型名称	数据集	类型	描述
Qwen2 72B Instruct	Magpie-Qwen2-Pro-1M	SFT	使用Qwen2 72B Instruct构建的1M原始对话
Qwen2 72B Instruct	Magpie-Qwen2-Pro-300K-Filtered	SFT	应用过滤器并选择300K高质量对话
Qwen2 72B Instruct	Magpie-Qwen2-Pro-200K-Chinese	SFT	应用过滤器并选择200K高质量中文对话
Qwen2 72B Instruct	Magpie-Qwen2-Pro-200K-English	SFT	应用过滤器并选择200K高质量英语对话

搜集汇总

数据集介绍

构建方式

Magpie-Qwen2-Pro-200K-Chinese数据集的构建基于自合成方法，利用Qwen2-72B-Instruct模型生成大规模对齐数据。通过输入仅包含左侧模板的提示，模型能够自动生成用户查询及其响应。生成的数据经过多轮筛选，包括输入质量、指令奖励、语言过滤等，最终选取了20万条高质量的中文对话数据。

使用方法

Magpie-Qwen2-Pro-200K-Chinese数据集适用于监督微调（SFT）任务，尤其适合用于提升中文语言模型的对齐能力。用户可以通过过滤条件选择特定质量或难度的数据，或利用最小邻居距离去除重复或相似实例。数据集还可用于评估模型在特定任务上的表现，如问答、对话生成等。

背景与挑战

背景概述

Magpie-Qwen2-Pro-200K-Chinese数据集是由Qwen/Qwen2-72B-Instruct模型生成的，旨在为大语言模型（LLMs）的对齐提供高质量的中文指令数据。该数据集基于Magpie项目，该项目提出了一种自合成方法，通过从已对齐的LLMs中提取指令数据，解决了现有开源数据创建方法在扩展性和多样性上的局限性。Magpie项目的研究团队通过输入左侧模板，利用LLMs的自回归特性生成用户查询和响应，最终筛选出高质量的数据实例。该数据集的研究背景源于对LLMs对齐数据的需求，尤其是在中文语境下的应用，推动了相关领域的发展。

当前挑战

Magpie-Qwen2-Pro-200K-Chinese数据集在构建过程中面临多重挑战。首先，生成高质量指令数据需要克服LLMs生成内容的多样性与一致性之间的平衡问题，确保数据既具有广泛覆盖性，又能保持高质量标准。其次，数据过滤和筛选过程复杂，需通过输入质量、指令奖励、语言等多维度标准进行严格筛选，以避免重复或不完整的指令。此外，中文语境下的指令生成还需考虑语言特性和文化背景，确保生成的指令在语义和逻辑上符合中文表达习惯。这些挑战不仅体现在数据生成阶段，还贯穿于数据清洗和评估的全过程。

常用场景

经典使用场景

Magpie-Qwen2-Pro-200K-Chinese数据集在自然语言处理领域中的经典使用场景主要集中在大规模语言模型的微调与对齐任务上。通过该数据集，研究人员能够对预训练模型进行监督微调（SFT），从而提升模型在中文任务中的表现。该数据集的高质量指令数据特别适用于生成式任务，如问答系统、对话生成和文本摘要等。

解决学术问题

该数据集解决了大规模语言模型在中文任务中数据稀缺和质量参差不齐的问题。通过提供高质量的指令-响应对，Magpie-Qwen2-Pro-200K-Chinese为研究人员提供了一个可靠的数据源，用于模型对齐和性能优化。其独特的自合成方法确保了数据的多样性和高质量，显著提升了模型在复杂任务中的表现。

实际应用

在实际应用中，Magpie-Qwen2-Pro-200K-Chinese数据集被广泛用于开发智能客服系统、教育辅助工具和内容生成平台。其高质量的中文指令数据能够有效提升这些系统的交互体验和生成内容的准确性，满足用户对自然语言处理技术的实际需求。

数据集最近研究