five

Magpie-Align/Llama-3-Magpie-Pro-1M-v0.1

收藏
Hugging Face2024-08-21 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/Magpie-Align/Llama-3-Magpie-Pro-1M-v0.1
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是通过Llama 3 70B Instruct模型使用Magpie方法生成的,包含了100万个训练样本。数据集的特征包括uuid、model、gen_input_config、input、output、conversations、task_category、difficulty、intent、knowledge、input_quality、quality_explanation、llama_guard_2、reward_model、instruct_reward、base_output、base_reward、reward_difference、min_neighbor_distance、repeat_count、min_similar_uuid、input_length和output_length。数据集的标签包括输入长度、输出长度、任务类别、输入质量、输入难度、最小邻居距离、安全性、指令奖励、基础奖励和奖励差异。

该数据集是通过Llama 3 70B Instruct模型使用Magpie方法生成的,包含了100万个训练样本。数据集的特征包括uuid、model、gen_input_config、input、output、conversations、task_category、difficulty、intent、knowledge、input_quality、quality_explanation、llama_guard_2、reward_model、instruct_reward、base_output、base_reward、reward_difference、min_neighbor_distance、repeat_count、min_similar_uuid、input_length和output_length。数据集的标签包括输入长度、输出长度、任务类别、输入质量、输入难度、最小邻居距离、安全性、指令奖励、基础奖励和奖励差异。
提供机构:
Magpie-Align
原始信息汇总

数据集信息

特征

  • uuid: 字符串类型
  • model: 字符串类型
  • gen_input_config: 结构体类型
    • temperature: 浮点数类型
    • top_p: 浮点数类型
  • input: 字符串类型
  • output: 字符串类型
  • conversations: 列表类型
    • from: 字符串类型
    • value: 字符串类型
  • task_category: 字符串类型
  • difficulty: 字符串类型
  • intent: 字符串类型
  • knowledge: 字符串类型
  • input_quality: 字符串类型
  • quality_explanation: 字符串类型
  • llama_guard_2: 字符串类型
  • reward_model: 字符串类型
  • instruct_reward: 浮点数类型
  • base_output: 字符串类型
  • base_reward: 浮点数类型
  • reward_difference: 浮点数类型
  • min_neighbor_distance: 浮点数类型
  • repeat_count: 整数类型
  • min_similar_uuid: 字符串类型
  • input_length: 整数类型
  • output_length: 整数类型

数据分割

  • train:
    • 字节数: 7246816028
    • 样本数: 1000000

数据大小

  • 下载大小: 4024435165
  • 数据集大小: 7246816028

配置

  • default:
    • 数据文件:
      • 分割: train
      • 路径: data/train-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作