Magpie-Qwen2-Pro-200K-Chinese|中文问答数据集|模型生成数据数据集

huggingface2024-07-03 更新2024-12-12 收录

中文问答

模型生成数据

下载链接：

https://huggingface.co/datasets/Magpie-Align/Magpie-Qwen2-Pro-200K-Chinese

下载链接

链接失效反馈

资源简介：

该数据集由Qwen/Qwen2-72B-Instruct模型使用Magpie方法生成，包含200,000个样本，主要用于中文问题回答任务。数据集特征丰富，包括uuid、模型名称、生成输入配置、指令、响应、对话、任务类别等。数据集通过过滤确保高质量，如输入质量至少为'good'，指令奖励大于等于-10，语言为中文，并移除重复和不完整的指令。

创建时间：

2024-06-26

原始信息汇总

数据集概述

数据集信息

特征列表:
- uuid: 字符串
- model: 字符串
- gen_input_configs: 结构体
  - temperature: 浮点数
  - top_p: 浮点数
  - input_generator: 字符串
  - seed: 空
  - extract_input: 字符串
- instruction: 字符串
- response: 字符串
- conversations: 列表
  - from: 字符串
  - value: 字符串
- task_category: 字符串
- other_task_category: 序列字符串
- task_category_generator: 字符串
- difficulty: 字符串
- intent: 字符串
- knowledge: 字符串
- difficulty_generator: 字符串
- input_quality: 字符串
- quality_explanation: 字符串
- quality_generator: 字符串
- llama_guard_2: 字符串
- reward_model: 字符串
- instruct_reward: 浮点数
- min_neighbor_distance: 浮点数
- repeat_count: 整数
- min_similar_uuid: 字符串
- instruction_length: 整数
- response_length: 整数
- language: 字符串
数据分割:
- train: 200,000个样本，大小为898,262,675.9375356字节
下载大小: 483,456,525字节
数据集大小: 898,262,675.9375356字节

配置信息

默认配置:
- 数据文件路径: data/train-*

任务类别

问答

语言

中文

可用标签

输入长度: 指令中的字符总数
输出长度: 响应中的字符总数
任务类别: 指令的具体类别
输入质量: 指令的清晰度、具体性和连贯性，评级为非常差、差、一般、好和优秀
输入难度: 处理指令所需知识的水平，评级为非常容易、容易、中等、难或非常难
最小邻居距离: 数据集中最近邻居的嵌入距离，可用于过滤重复或相似实例
安全性: 由meta-llama/Meta-Llama-Guard-2-8B标记的安全标签
奖励: 奖励模型给出的特定指令-响应对的输出
语言: 指令的语言

过滤设置

输入质量: ≥ 好
指令奖励: ≥ -10
语言: 中文
移除重复和不完整的指令（例如，以“:”结尾）
选择200K个响应最长的数据

数据集导航

模型名称	数据集	类型	描述
Qwen2 72B Instruct	Magpie-Qwen2-Pro-1M	SFT	使用Qwen2 72B Instruct构建的1M原始对话
Qwen2 72B Instruct	Magpie-Qwen2-Pro-300K-Filtered	SFT	应用过滤器并选择300K高质量对话
Qwen2 72B Instruct	Magpie-Qwen2-Pro-200K-Chinese	SFT	应用过滤器并选择200K高质量中文对话
Qwen2 72B Instruct	Magpie-Qwen2-Pro-200K-English	SFT	应用过滤器并选择200K高质量英语对话

AI搜集汇总

数据集介绍

构建方式

Magpie-Qwen2-Pro-200K-Chinese数据集的构建基于自合成方法，利用Qwen2-72B-Instruct模型生成大规模对齐数据。通过输入仅包含左侧模板的提示，模型能够自动生成用户查询及其响应。生成的数据经过多轮筛选，包括输入质量、指令奖励、语言过滤等，最终选取了20万条高质量的中文对话数据。

使用方法

Magpie-Qwen2-Pro-200K-Chinese数据集适用于监督微调（SFT）任务，尤其适合用于提升中文语言模型的对齐能力。用户可以通过过滤条件选择特定质量或难度的数据，或利用最小邻居距离去除重复或相似实例。数据集还可用于评估模型在特定任务上的表现，如问答、对话生成等。

背景与挑战

背景概述

Magpie-Qwen2-Pro-200K-Chinese数据集是由Qwen/Qwen2-72B-Instruct模型生成的，旨在为大语言模型（LLMs）的对齐提供高质量的中文指令数据。该数据集基于Magpie项目，该项目提出了一种自合成方法，通过从已对齐的LLMs中提取指令数据，解决了现有开源数据创建方法在扩展性和多样性上的局限性。Magpie项目的研究团队通过输入左侧模板，利用LLMs的自回归特性生成用户查询和响应，最终筛选出高质量的数据实例。该数据集的研究背景源于对LLMs对齐数据的需求，尤其是在中文语境下的应用，推动了相关领域的发展。

当前挑战

Magpie-Qwen2-Pro-200K-Chinese数据集在构建过程中面临多重挑战。首先，生成高质量指令数据需要克服LLMs生成内容的多样性与一致性之间的平衡问题，确保数据既具有广泛覆盖性，又能保持高质量标准。其次，数据过滤和筛选过程复杂，需通过输入质量、指令奖励、语言等多维度标准进行严格筛选，以避免重复或不完整的指令。此外，中文语境下的指令生成还需考虑语言特性和文化背景，确保生成的指令在语义和逻辑上符合中文表达习惯。这些挑战不仅体现在数据生成阶段，还贯穿于数据清洗和评估的全过程。

常用场景

经典使用场景

Magpie-Qwen2-Pro-200K-Chinese数据集在自然语言处理领域中的经典使用场景主要集中在大规模语言模型的微调与对齐任务上。通过该数据集，研究人员能够对预训练模型进行监督微调（SFT），从而提升模型在中文任务中的表现。该数据集的高质量指令数据特别适用于生成式任务，如问答系统、对话生成和文本摘要等。

解决学术问题

该数据集解决了大规模语言模型在中文任务中数据稀缺和质量参差不齐的问题。通过提供高质量的指令-响应对，Magpie-Qwen2-Pro-200K-Chinese为研究人员提供了一个可靠的数据源，用于模型对齐和性能优化。其独特的自合成方法确保了数据的多样性和高质量，显著提升了模型在复杂任务中的表现。

实际应用

在实际应用中，Magpie-Qwen2-Pro-200K-Chinese数据集被广泛用于开发智能客服系统、教育辅助工具和内容生成平台。其高质量的中文指令数据能够有效提升这些系统的交互体验和生成内容的准确性，满足用户对自然语言处理技术的实际需求。

数据集最近研究

最新研究方向

在自然语言处理领域，高质量的对齐数据对于大型语言模型（LLMs）的微调至关重要。Magpie-Qwen2-Pro-200K-Chinese数据集通过自合成方法，利用Qwen2-72B-Instruct模型生成了大规模的中文对齐数据。这一方法的核心在于利用对齐模型的自动回归特性，仅通过输入左侧模板即可生成用户查询和响应。该数据集不仅涵盖了多样化的任务类别，还通过严格的过滤机制确保了数据的质量和多样性。研究表明，使用Magpie数据进行监督微调（SFT）的模型在多个对齐基准测试中表现优异，甚至超越了使用其他公开数据集进行SFT和偏好优化的模型。这一成果为中文语言模型的对齐研究提供了新的思路和工具，推动了AI民主化进程。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

LEGO数据集

该数据集包含了关于LEGO公司的历史、产品提供以及特定LEGO套装的信息，用于分析LEGO套装的规模、发布年份、主题分布以及套装复杂性的变化。

github 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

MedDialog

MedDialog数据集（中文）包含了医生和患者之间的对话（中文）。它有110万个对话和400万个话语。数据还在不断增长，会有更多的对话加入。原始对话来自好大夫网。

github 收录

中国行政区划数据

本项目为中国行政区划数据，包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局，存储格式为sqlite3 db文件，支持直接使用数据库连接工具打开。

github 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集，专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例，收集自自然雾霾环境和正常场景中人工添加的雾霾效果，以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型，确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测，旨在提高无人机在复杂环境中的感知能力。

arXiv 收录