five

Magpie-Align/Magpie-Gemma2-Pro-200K-Filtered

收藏
Hugging Face2024-07-22 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/Magpie-Align/Magpie-Gemma2-Pro-200K-Filtered
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是通过Magpie方法使用Gemma-2-27b-it模型生成的,包含了指令和响应的对话数据。数据集的特征包括输入长度、输出长度、任务类别、输入质量、输入难度、最小邻居距离、安全性、奖励和语言等。数据集还经过了进一步的过滤,确保指令的简洁性和响应的长度。

The dataset is generated by the Gemma-2-27b-it model using the Magpie method, containing 200,000 training data entries. The dataset features include UUID, model name, generation input configurations, instructions, responses, conversations, task categories, etc. The dataset is filtered to ensure concise and safe instructions, selecting the 200,000 entries with the longest responses. The dataset is used for training and evaluating model performance, especially in task alignment and preference optimization.
提供机构:
Magpie-Align
原始信息汇总

数据集概述

数据集信息

特征

  • uuid: 字符串类型
  • model: 字符串类型
  • gen_input_configs: 结构体类型
    • temperature: 浮点数类型
    • top_p: 浮点数类型
    • input_generator: 字符串类型
    • seed: 空类型
    • pre_query_template: 字符串类型
  • instruction: 字符串类型
  • response: 字符串类型
  • conversations: 列表类型
    • from: 字符串类型
    • value: 字符串类型
  • task_category: 字符串类型
  • other_task_category: 序列类型
  • task_category_generator: 字符串类型
  • difficulty: 字符串类型
  • intent: 字符串类型
  • knowledge: 字符串类型
  • difficulty_generator: 字符串类型
  • input_quality: 字符串类型
  • quality_explanation: 字符串类型
  • quality_generator: 字符串类型
  • llama_guard_2: 字符串类型
  • reward_model: 字符串类型
  • instruct_reward: 浮点数类型
  • min_neighbor_distance: 浮点数类型
  • repeat_count: 整数类型
  • min_similar_uuid: 字符串类型
  • instruction_length: 整数类型
  • response_length: 整数类型
  • language: 字符串类型

数据分割

  • train: 包含200,000个样本,总大小为1,017,660,700.2007489字节

数据集大小

  • 下载大小: 554,649,839字节
  • 数据集大小: 1,017,660,700.2007489字节

配置

  • default: 包含训练数据文件,路径为data/train-*

数据集详情

生成模型

可用标签

  • Input Length: 指令中的字符总数
  • Output Length: 响应中的字符总数
  • Task Category: 指令的具体类别
  • Input Quality: 指令的清晰度、特异性和连贯性,评级为very poor, poor, average, good, excellent
  • Input Difficulty: 完成任务所需的知识水平,评级为very easy, easy, medium, hard, very hard
  • Minimum Neighbor Distance: 数据集中最近邻的嵌入距离,用于过滤重复或相似的实例
  • Safety: 由meta-llama/Meta-Llama-Guard-2-8B标记的安全标签
  • Reward: 奖励模型对特定指令-响应对的输出
  • Language: 指令的语言

过滤设置

  • Llama Guard 2: 安全
  • Instruction Reward: >=-8
  • Number of in instructions: <=2
  • 选择200K个响应最长的数据

许可证

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作