five

Magpie-Qwen2.5-Pro-300K-Filtered

收藏
Hugging Face2024-10-20 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/Magpie-Align/Magpie-Qwen2.5-Pro-300K-Filtered
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集由Qwen/Qwen2.5-72B-Instruct模型使用Magpie方法生成,包含300,000个高质量的指令及其对应的响应。数据集的特征包括UUID、模型名称、生成输入配置、指令、响应、对话、任务类别、难度、意图、知识等多个字段。数据集的生成方法是通过向对齐的大型语言模型(如Llama-3-Instruct)输入左侧模板,利用其自回归特性生成用户查询,从而生成大规模的对齐数据。数据集经过筛选,确保输入质量高、指令奖励大于等于-5,并移除重复和不完整的指令。数据集还包括输入长度、输出长度、任务类别、输入质量、输入难度、最小邻居距离、安全性标签、奖励和语言等标签。

该数据集由Qwen/Qwen2.5-72B-Instruct模型使用Magpie方法生成,包含300,000个高质量的指令及其对应的响应。数据集的特征包括UUID、模型名称、生成输入配置、指令、响应、对话、任务类别、难度、意图、知识等多个字段。数据集的生成方法是通过向对齐的大型语言模型(如Llama-3-Instruct)输入左侧模板,利用其自回归特性生成用户查询,从而生成大规模的对齐数据。数据集经过筛选,确保输入质量高、指令奖励大于等于-5,并移除重复和不完整的指令。数据集还包括输入长度、输出长度、任务类别、输入质量、输入难度、最小邻居距离、安全性标签、奖励和语言等标签。
创建时间:
2024-10-20
原始信息汇总

数据集概述:Magpie-Qwen2.5-Pro-300K-Filtered

基本信息

  • 数据集来源:由Qwen/Qwen2.5-72B-Instruct生成,使用Magpie方法。
  • 数据集大小:2,480,872,523.87字节(约2.48GB)。
  • 下载大小:1,445,340,108字节(约1.45GB)。
  • 样本数量:300,000条。
  • 数据格式:包含多个结构化特征。

数据集特征

  • uuid:字符串类型,唯一标识符。
  • model:字符串类型,模型名称。
  • gen_input_configs:结构体,包含温度(temperature)、top_p(top_p)、输入生成器(input_generator)、种子(seed)、查询模板(pre_query_template)等字段。
  • instruction:字符串类型,指令内容。
  • response:字符串类型,响应内容。
  • conversations:列表类型,包含来源(from)和值(value)字段。
  • task_category:字符串类型,任务类别。
  • other_task_category:字符串序列,其他任务类别。
  • task_category_generator:字符串类型,任务类别生成器。
  • difficulty:字符串类型,难度级别。
  • intent:字符串类型,意图。
  • knowledge:字符串类型,知识。
  • difficulty_generator:字符串类型,难度生成器。
  • input_quality:字符串类型,输入质量。
  • quality_explanation:字符串类型,质量解释。
  • quality_generator:字符串类型,质量生成器。
  • llama_guard_2:字符串类型,安全标签。
  • reward_model:字符串类型,奖励模型。
  • instruct_reward:浮点类型,指令奖励。
  • min_neighbor_distance:浮点类型,最小邻居距离。
  • repeat_count:整型,重复计数。
  • min_similar_uuid:字符串类型,最小相似uuid。
  • instruction_length:整型,指令长度。
  • response_length:整型,响应长度。
  • language:字符串类型,语言。

可用标签

  • 输入长度:指令中的字符总数。
  • 输出长度:响应中的字符总数。
  • 任务类别:指令的具体类别。
  • 输入质量:指令的清晰度、特异性和连贯性,评级为very poor、poor、average、good和excellent。
  • 输入难度:完成任务所需的知识水平,评级为very easy、easy、medium、hard或very hard。
  • 最小邻居距离:数据集中最近邻居的嵌入距离。
  • 安全性:由meta-llama/Meta-Llama-Guard-2-8B标记的安全标签。
  • 奖励:奖励模型对特定指令-响应对的输出。
  • 语言:指令的语言。

过滤设置

  • 输入质量:≥ good。
  • 指令奖励:≥ -5。
  • 移除重复和不完整的指令(例如以冒号结尾的指令)。
  • 移除包含"Alibaba"的指令。
  • 选择响应最长的300K条数据。

相关资源

搜集汇总
数据集介绍
main_image_url
构建方式
Magpie-Qwen2.5-Pro-300K-Filtered数据集的构建基于Qwen/Qwen2.5-72B-Instruct模型,采用Magpie自合成方法生成大规模对齐数据。该方法通过输入左侧模板至用户消息预留位置,利用对齐大语言模型的自回归特性生成用户查询及其响应。初始生成400万条指令及其对应响应,经过全面分析后筛选出30万条高质量实例。筛选标准包括输入质量、指令奖励、去除重复和不完整指令,并选择响应最长的数据。
特点
该数据集包含丰富的特征,如输入长度、输出长度、任务类别、输入质量、输入难度、最小邻居距离、安全标签、奖励模型输出及语言等。输入质量分为‘非常差’到‘优秀’五个等级,输入难度则从‘非常简单’到‘非常难’五个级别。最小邻居距离用于过滤重复或相似实例,安全标签由Meta-Llama-Guard-2-8B标记,奖励模型输出则评估指令-响应对的质量。这些特征为研究者提供了多维度的分析视角。
使用方法
Magpie-Qwen2.5-Pro-300K-Filtered数据集适用于监督微调(SFT)任务,可用于提升大语言模型的性能。研究者可通过该数据集进行模型训练,评估其在特定任务上的表现。数据集中的特征如输入质量、难度及奖励模型输出,可用于进一步优化模型的对齐效果。此外,最小邻居距离特征有助于去除重复数据,提升数据集的多样性。该数据集的使用方法详见相关论文和代码库,为研究者提供了详细的实现指南。
背景与挑战
背景概述
Magpie-Qwen2.5-Pro-300K-Filtered数据集由Qwen/Qwen2.5-72B-Instruct模型生成,旨在解决大规模语言模型(LLMs)对齐过程中高质量指令数据稀缺的问题。该数据集基于Magpie方法,通过自合成技术从已对齐的LLM中提取指令数据,生成并筛选出30万条高质量实例。Magpie方法的核心在于利用已对齐模型的自动回归特性,仅输入左侧模板即可生成用户查询,从而大幅降低数据生成的人力成本。该数据集的研究背景源于LLMs对齐数据私有化的问题,阻碍了AI技术的民主化进程。Magpie的提出不仅为公开对齐数据集提供了新的生成途径,还在多个对齐基准测试中展现了与官方对齐模型相当的性能。
当前挑战
Magpie-Qwen2.5-Pro-300K-Filtered数据集在构建过程中面临多重挑战。首先,如何确保生成指令数据的多样性和质量是一个核心问题。尽管Magpie方法通过自合成技术降低了人力成本,但生成的数据仍需经过严格的筛选和过滤,以避免重复、不完整或低质量的实例。其次,数据集的构建依赖于已对齐模型的自动回归特性,这可能导致生成数据的范围受限,难以覆盖所有可能的任务类别和难度级别。此外,数据集的过滤标准(如输入质量、指令奖励等)需要精心设计,以确保最终筛选出的数据能够有效支持模型的对齐训练。最后,数据集的规模与质量之间的平衡也是一个重要挑战,如何在保证高质量的同时扩大数据规模,仍需进一步探索。
常用场景
经典使用场景
在自然语言处理领域,Magpie-Qwen2.5-Pro-300K-Filtered数据集被广泛应用于大语言模型的监督微调(SFT)任务中。通过该数据集,研究人员能够对模型进行精细化的指令对齐,提升模型在生成任务中的表现。其高质量的指令数据为模型提供了多样化的训练样本,涵盖了从简单到复杂的多种任务类别,使得模型能够在不同场景下展现出更强的泛化能力。
衍生相关工作
基于Magpie-Qwen2.5-Pro-300K-Filtered数据集,研究人员开展了多项经典工作。例如,利用该数据集进行监督微调的模型在AlpacaEval、ArenaHard等基准测试中表现优异,甚至超越了使用其他公开数据集进行微调的模型。此外,该数据集还推动了指令数据生成方法的研究,为后续大规模高质量数据集的构建提供了重要借鉴。
数据集最近研究
最新研究方向
在大型语言模型(LLMs)对齐领域,高质量指令数据的生成与筛选成为研究热点。Magpie-Qwen2.5-Pro-300K-Filtered数据集通过自合成方法,从对齐的LLMs中提取大规模指令数据,显著提升了数据多样性与质量。该数据集采用Qwen2.5-72B-Instruct模型生成,并通过严格的过滤机制筛选出30万条高质量对话实例。研究表明,仅使用Magpie数据进行监督微调(SFT)的模型,在AlpacaEval、ArenaHard和WildBench等对齐基准测试中表现优异,甚至超越了结合SFT与偏好优化的其他公开数据集。这一成果为LLMs对齐数据的开源化提供了新的思路,推动了AI民主化进程。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作