five

Magpie-Qwen2-Pro-300K-Filtered

收藏
Hugging Face2024-07-03 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/Magpie-Align/Magpie-Qwen2-Pro-300K-Filtered
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集由Qwen/Qwen2-72B-Instruct模型使用Magpie方法生成,包含300,000条高质量指令及其对应响应。数据集特征包括UUID、模型名称、生成输入配置、指令、响应、对话、任务类别等。数据集分为训练集,大小为1,491,034,853.2022362字节,包含300,000个样本。数据集的标签包括输入长度、输出长度、任务类别、输入质量、输入难度、最小邻居距离、安全标签、奖励和语言。数据集经过筛选,确保输入质量至少为'good',指令奖励大于等于-10,并去除重复和不完整的指令,最终选择300,000条具有最长响应的数据。
创建时间:
2024-06-24
原始信息汇总

数据集概述

数据集信息

  • 特征列表:

    • uuid: 字符串
    • model: 字符串
    • gen_input_configs: 结构体
      • temperature: 浮点数
      • top_p: 浮点数
      • input_generator: 字符串
      • seed: 空值
      • extract_input: 字符串
    • instruction: 字符串
    • response: 字符串
    • conversations: 列表
      • from: 字符串
      • value: 字符串
    • task_category: 字符串
    • other_task_category: 字符串序列
    • task_category_generator: 字符串
    • difficulty: 字符串
    • intent: 字符串
    • knowledge: 字符串
    • difficulty_generator: 字符串
    • input_quality: 字符串
    • quality_explanation: 字符串
    • quality_generator: 字符串
    • llama_guard_2: 字符串
    • reward_model: 字符串
    • instruct_reward: 浮点数
    • min_neighbor_distance: 浮点数
    • repeat_count: 整数
    • min_similar_uuid: 字符串
    • instruction_length: 整数
    • response_length: 整数
    • language: 字符串
  • 数据分割:

    • train: 300,000个样本,大小为1,491,034,853.2022362字节
  • 下载大小: 835,172,169字节

  • 数据集大小: 1,491,034,853.2022362字节

配置信息

  • 默认配置:
    • 数据文件路径: data/train-*

可用标签

  • 输入长度: 指令中的字符总数
  • 输出长度: 响应中的字符总数
  • 任务类别: 指令的具体类别
  • 输入质量: 指令的清晰度、具体性和连贯性,评级为非常差、差、一般、好和优秀
  • 输入难度: 完成任务所需知识的水平,评级为非常容易、容易、中等、难或非常难
  • 最小邻居距离: 数据集中最近邻居的嵌入距离,用于过滤重复或相似实例
  • 安全性: 由meta-llama/Meta-Llama-Guard-2-8B标记的安全标签
  • 奖励: 奖励模型给出的特定指令-响应对的输出
  • 语言: 指令的语言

过滤设置

  • 输入质量: ≥ 好
  • 指令奖励: ≥ -10
  • 移除重复和不完整的指令(例如,以“:”结尾)
  • 选择300K个具有最长响应的数据
搜集汇总
数据集介绍
main_image_url
构建方式
Magpie-Qwen2-Pro-300K-Filtered数据集通过自合成方法生成,利用Qwen/Qwen2-72B-Instruct模型,结合Magpie框架,从预训练的大型语言模型中提取高质量指令数据。具体而言,该方法通过输入仅包含用户消息位置的左侧模板,利用自回归特性生成用户查询及其响应。经过全面分析,从生成的400万条指令中筛选出30万条高质量实例,确保数据的多样性和质量。
特点
该数据集包含丰富的特征,如指令长度、响应长度、任务类别、输入质量、输入难度、最小邻居距离、安全性标签、奖励模型输出以及语言信息。输入质量分为五个等级,从“非常差”到“优秀”,输入难度则从“非常简单”到“非常难”。最小邻居距离用于过滤重复或相似的实例,确保数据的独特性。此外,数据集还包含由Meta-Llama-Guard-2-8B标记的安全性标签,以及奖励模型对指令-响应对的评分。
使用方法
Magpie-Qwen2-Pro-300K-Filtered数据集适用于监督微调(SFT)任务,可用于提升大型语言模型的指令对齐能力。用户可通过HuggingFace平台下载数据集,并根据任务需求选择特定特征进行模型训练。数据集已通过严格过滤,确保输入质量不低于“良好”,指令奖励不低于-10,并去除重复和不完整的指令。此外,数据集中的响应长度较长,适合需要详细响应的任务场景。
背景与挑战
背景概述
Magpie-Qwen2-Pro-300K-Filtered数据集是由Qwen/Qwen2-72B-Instruct模型生成的,旨在为大语言模型(LLMs)的对齐任务提供高质量的指令数据。该数据集的创建基于Magpie项目,该项目提出了一种自合成方法,通过从已对齐的LLMs中提取指令数据,解决了现有开源数据创建方法在扩展性和多样性上的局限性。数据集的核心研究问题是如何在无需大量人工干预的情况下,生成大规模且高质量的指令数据,以促进AI技术的民主化。该数据集的研究背景可追溯至2024年,相关技术报告和代码库已在arXiv和GitHub上公开。
当前挑战
Magpie-Qwen2-Pro-300K-Filtered数据集在构建过程中面临多重挑战。首先,如何确保生成的指令数据具有高质量和多样性是一个关键问题。尽管通过自合成方法可以从对齐的LLMs中提取数据,但如何有效过滤低质量或重复的实例仍需精细设计。其次,数据集的构建依赖于模型的自动生成能力,这可能导致某些指令的语义不明确或任务类别不清晰。此外,数据集的规模和质量之间的平衡也是一个挑战,如何在保证数据多样性的同时,避免引入噪声数据,是构建过程中需要解决的核心问题。最后,数据集的评估和验证需要依赖复杂的对齐基准测试,这对模型的性能提出了更高的要求。
常用场景
经典使用场景
在自然语言处理领域,Magpie-Qwen2-Pro-300K-Filtered数据集主要用于大语言模型(LLMs)的指令微调(SFT)。通过该数据集,研究人员可以训练模型生成高质量的指令响应,从而提升模型在特定任务上的表现。该数据集特别适用于需要高精度和多样性的任务,如问答系统、对话生成和文本摘要等。
衍生相关工作
基于Magpie-Qwen2-Pro-300K-Filtered数据集,许多经典研究工作得以展开。例如,研究人员利用该数据集对Llama-3-8B-Base模型进行微调,并在AlpacaEval、ArenaHard和WildBench等基准测试中取得了显著性能提升。此外,该数据集还推动了指令生成和偏好优化领域的研究,为后续的模型对齐和反馈学习提供了重要参考。
数据集最近研究
最新研究方向
在大型语言模型(LLMs)的对齐研究中,Magpie-Qwen2-Pro-300K-Filtered数据集代表了自合成方法的最新进展。该数据集通过从已对齐的LLM中直接提取高质量指令数据,解决了传统方法中人力成本高、数据范围受限的问题。研究表明,使用Magpie数据进行监督微调(SFT)的模型,在某些任务上表现与官方Llama-3-8B-Instruct模型相当,甚至超越了以往公开数据集在SFT和偏好优化中的表现。这一发现为LLM的对齐研究提供了新的思路,尤其是在数据多样性和质量提升方面。此外,Magpie数据集的安全性和质量过滤机制,如使用Meta-Llama-Guard-2-8B进行安全标记,进一步增强了其在实际应用中的可靠性。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作