five

Magpie-Align/Magpie-Phi3-Pro-300K-Filtered

收藏
Hugging Face2024-07-03 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/Magpie-Align/Magpie-Phi3-Pro-300K-Filtered
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是通过Magpie方法从microsoft/Phi-3-medium-128k-instruct模型中生成的,包含了300K高质量对话数据。数据集的特征包括输入长度、输出长度、任务类别、输入质量、输入难度、最小邻居距离、安全性、奖励和语言等。过滤设置包括输入质量、指令奖励、去除重复和不完整指令,并选择响应最长的300K数据。数据集主要用于监督微调(SFT),并且在某些任务中表现优于其他公开数据集。

该数据集是通过Magpie方法从microsoft/Phi-3-medium-128k-instruct模型中生成的,包含了300K高质量对话数据。数据集的特征包括输入长度、输出长度、任务类别、输入质量、输入难度、最小邻居距离、安全性、奖励和语言等。过滤设置包括输入质量、指令奖励、去除重复和不完整指令,并选择响应最长的300K数据。数据集主要用于监督微调(SFT),并且在某些任务中表现优于其他公开数据集。
提供机构:
Magpie-Align
原始信息汇总

数据集概述

数据集信息

  • 特征列表:

    • uuid: 字符串类型
    • model: 字符串类型
    • gen_input_configs: 结构体类型,包含以下字段:
      • temperature: 浮点数类型
      • top_p: 浮点数类型
      • input_generator: 字符串类型
      • seed: 空类型
      • extract_input: 字符串类型
    • instruction: 字符串类型
    • response: 字符串类型
    • conversations: 列表类型,包含以下字段:
      • from: 字符串类型
      • value: 字符串类型
    • task_category: 字符串类型
    • other_task_category: 序列字符串类型
    • task_category_generator: 字符串类型
    • difficulty: 字符串类型
    • intent: 字符串类型
    • knowledge: 字符串类型
    • difficulty_generator: 字符串类型
    • input_quality: 字符串类型
    • quality_explanation: 字符串类型
    • quality_generator: 字符串类型
    • llama_guard_2: 字符串类型
    • reward_model: 字符串类型
    • instruct_reward: 浮点数类型
    • min_neighbor_distance: 浮点数类型
    • repeat_count: 整数类型
    • min_similar_uuid: 字符串类型
    • instruction_length: 整数类型
    • response_length: 整数类型
    • language: 字符串类型
  • 数据分割:

    • train: 包含300,000个样本,总大小为1,574,922,147.473432字节
  • 数据集大小:

    • 下载大小: 886,548,523字节
    • 数据集大小: 1,574,922,147.473432字节

配置信息

  • 默认配置:
    • 数据文件路径: data/train-*

可用标签

  • 输入长度: 指令中的字符总数
  • 输出长度: 响应中的字符总数
  • 任务类别: 指令的具体类别
  • 输入质量: 指令的清晰度、特异性和连贯性,评级为非常差、差、一般、好和优秀
  • 输入难度: 完成指令所需知识的水平,评级为非常容易、容易、中等、难或非常难
  • 最小邻居距离: 数据集中最近的邻居的嵌入距离,用于过滤重复或相似的实例
  • 安全性: 由meta-llama/Meta-Llama-Guard-2-8B标记的安全标签
  • 奖励: 奖励模型给出的特定指令-响应对的输出
  • 语言: 指令的语言

过滤设置

  • 输入质量: ≥ 好
  • 指令奖励: ≥ -10
  • 移除重复和不完整的指令(例如,以":"结尾)
  • 选择300K具有最长响应的数据
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作