five

Magpie-Qwen2-Pro-200K-English

收藏
Hugging Face2024-07-02 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/Magpie-Align/Magpie-Qwen2-Pro-200K-English
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个特征,如uuid、model、gen_input_configs等,每个特征都有其特定的数据类型。gen_input_configs是一个结构化特征,包含多个子特征。数据集分为训练集,包含200000个样本。数据集的大小和下载大小也有明确记录。

This dataset includes multiple features, such as uuid, model, gen_input_configs and others, each with its specific data type. gen_input_configs is a structured feature that encompasses multiple sub-features. The dataset is split into a training set containing 200,000 samples. The size of the dataset and its download size are also explicitly recorded.
创建时间:
2024-07-02
原始信息汇总

数据集概述

数据集信息

  • 特征列表:

    • uuid: 字符串
    • model: 字符串
    • gen_input_configs: 结构体
      • temperature: 浮点数
      • top_p: 浮点数
      • input_generator: 字符串
      • seed: 空值
      • extract_input: 字符串
    • instruction: 字符串
    • response: 字符串
    • conversations: 列表
      • from: 字符串
      • value: 字符串
    • task_category: 字符串
    • other_task_category: 序列字符串
    • task_category_generator: 字符串
    • difficulty: 字符串
    • intent: 字符串
    • knowledge: 字符串
    • difficulty_generator: 字符串
    • input_quality: 字符串
    • quality_explanation: 字符串
    • quality_generator: 字符串
    • llama_guard_2: 字符串
    • reward_model: 字符串
    • instruct_reward: 浮点数
    • min_neighbor_distance: 浮点数
    • repeat_count: 整数
    • min_similar_uuid: 字符串
    • instruction_length: 整数
    • response_length: 整数
    • language: 字符串
  • 数据分割:

    • train: 200,000个样本,大小为1,007,184,254.428362字节
  • 数据集大小:

    • 下载大小: 599,475,522字节
    • 数据集大小: 1,007,184,254.428362字节
  • 配置:

    • default配置:
      • train分割: data/train-*路径

可用标签

  • 输入长度: 指令中的字符总数
  • 输出长度: 响应中的字符总数
  • 任务类别: 指令的具体类别
  • 输入质量: 指令的清晰度、具体性和连贯性,评级为非常差、差、一般、好和优秀
  • 输入难度: 处理指令所需知识的水平,评级为非常容易、容易、中等、难或非常难
  • 最小邻居距离: 数据集中最近邻居的嵌入距离,可用于过滤重复或相似实例
  • 安全性: 由meta-llama/Meta-Llama-Guard-2-8B标记的安全标签
  • 奖励: 奖励模型给出的特定指令-响应对的输出
  • 语言: 指令的语言

过滤设置

  • 输入质量: ≥ 好
  • 指令奖励: ≥ -10
  • 语言: 英语
  • 移除重复和不完整的指令(例如,以":"结尾)
  • 选择响应最长的200,000个数据

数据集导航

搜集汇总
数据集介绍
main_image_url
构建方式
Magpie-Qwen2-Pro-200K-English数据集的构建基于自合成方法,利用对齐的大型语言模型(如Llama-3-Instruct)生成用户查询。通过输入仅包含左侧模板的提示,模型能够自动生成用户消息,从而产生大量指令及其响应。随后,通过综合分析和筛选,从生成的400万条指令中精选出30万条高质量实例,最终形成该数据集。
特点
该数据集包含丰富的特征字段,如指令长度、响应长度、任务类别、输入质量、输入难度、最小邻居距离等。输入质量分为‘非常差’到‘优秀’五个等级,输入难度则从‘非常容易’到‘非常困难’五个级别。此外,数据集还包含安全标签和奖励模型输出,确保数据的多样性和高质量。所有数据均为英文,且经过严格的重复和不完整指令过滤。
使用方法
Magpie-Qwen2-Pro-200K-English数据集适用于监督微调(SFT)任务,尤其适合用于提升大型语言模型的指令对齐能力。用户可通过Hugging Face平台直接下载数据集,并结合Qwen2-72B-Instruct模型进行微调。数据集中的高质量指令和响应对可用于训练模型,以提升其在特定任务上的表现。此外,数据集的最小邻居距离字段可用于过滤重复或相似实例,进一步提升训练效果。
背景与挑战
背景概述
Magpie-Qwen2-Pro-200K-English数据集是由Qwen/Qwen2-72B-Instruct模型生成的,旨在为大语言模型(LLMs)的对齐任务提供高质量的指令数据。该数据集的创建基于Magpie项目,该项目提出了一种自合成方法,通过从已对齐的LLM中提取指令数据,解决了现有开源数据创建方法在扩展性和多样性上的局限性。数据集的核心研究问题在于如何高效生成大规模、高质量的指令数据,以支持LLM的对齐任务。该数据集的研究成果已在arXiv上发布,并展示了在某些任务上,使用Magpie数据进行微调的模型性能与官方Llama-3-8B-Instruct模型相当,甚至超越了其他公开数据集。
当前挑战
Magpie-Qwen2-Pro-200K-English数据集在构建过程中面临的主要挑战包括:1) 数据质量的保证,尽管通过自合成方法生成了大量指令数据,但如何从中筛选出高质量、多样化的实例仍是一个难题;2) 数据重复与相似性问题,尽管通过最小邻居距离等指标进行过滤,但仍需进一步优化以去除冗余数据;3) 指令的多样性与复杂性平衡,如何在保证指令清晰、具体的同时,涵盖广泛的任务类别和难度级别,是数据集构建中的关键挑战。此外,数据集的安全性和伦理问题也需要在生成过程中进行严格把控,以确保生成的指令数据符合社会伦理标准。
常用场景
经典使用场景
在自然语言处理领域,Magpie-Qwen2-Pro-200K-English数据集被广泛用于训练和评估大型语言模型(LLMs)。通过该数据集,研究人员能够生成高质量的指令数据,进而优化模型的指令对齐能力。其经典使用场景包括模型微调、指令生成任务以及模型对齐性能的评估。
实际应用
在实际应用中,Magpie-Qwen2-Pro-200K-English数据集被用于开发智能助手、聊天机器人以及自动化客服系统。通过使用该数据集,企业能够训练出更加智能、响应更加准确的AI系统,从而提升用户体验和服务效率。此外,该数据集还被用于教育领域,帮助开发智能教学工具。
衍生相关工作
基于Magpie-Qwen2-Pro-200K-English数据集,研究者们开发了多种经典工作。例如,利用该数据集进行监督微调(SFT)的模型在AlpacaEval、ArenaHard和WildBench等对齐基准测试中表现优异。此外,该数据集还被用于探索指令生成与模型对齐的新方法,推动了自然语言处理领域的前沿研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作