five

Magpie-Align/Llama-3-Magpie-Air-3M-v0.1

收藏
Hugging Face2024-08-21 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/Magpie-Align/Llama-3-Magpie-Air-3M-v0.1
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是通过使用Magpie方法与Llama 3 8B Instruct生成的。数据集包含多个特征,如uuid、模型、gen_input_config、输入、输出、对话、任务类别、难度、意图、知识、输入质量、质量解释、llama_guard_2、奖励模型、指导奖励、基础输出、基础奖励、奖励差异、最小邻居距离、重复计数、最小相似uuid、输入长度和输出长度。数据集分为训练集,包含300万个示例。README还提到生成了400万条指令和响应,并从中选择了30万条高质量实例。该数据集旨在用于微调模型,并已与其他公共指令数据集进行了比较。

This dataset is generated using the Magpie method with Llama 3 8B Instruct. It includes features such as uuid, model, gen_input_config, input, output, conversations, task_category, difficulty, intent, knowledge, input_quality, quality_explanation, llama_guard_2, reward_model, instruct_reward, base_output, base_reward, reward_difference, min_neighbor_distance, repeat_count, min_similar_uuid, input_length, and output_length. The dataset is split into a training set with 3 million examples. The README also mentions the generation of 4 million instructions and responses, with a selection of 300K high-quality instances. The dataset is intended for fine-tuning models and has been compared with other public instruction datasets.
提供机构:
Magpie-Align
原始信息汇总

数据集信息

特征

  • uuid: 字符串类型
  • model: 字符串类型
  • gen_input_config: 结构体
    • temperature: 浮点数类型 (float64)
    • top_p: 浮点数类型 (float64)
  • input: 字符串类型
  • output: 字符串类型
  • conversations: 列表
    • from: 字符串类型
    • value: 字符串类型
  • task_category: 字符串类型
  • difficulty: 字符串类型
  • intent: 字符串类型
  • knowledge: 字符串类型
  • input_quality: 字符串类型
  • quality_explanation: 字符串类型
  • llama_guard_2: 字符串类型
  • reward_model: 字符串类型
  • instruct_reward: 浮点数类型 (float64)
  • base_output: 字符串类型
  • base_reward: 浮点数类型 (float64)
  • reward_difference: 浮点数类型 (float64)
  • min_neighbor_distance: 浮点数类型 (float64)
  • repeat_count: 整数类型 (int64)
  • min_similar_uuid: 字符串类型
  • input_length: 整数类型 (int64)
  • output_length: 整数类型 (int64)

数据分割

  • train:
    • 字节数: 19031408037
    • 样本数: 3000000

数据大小

  • 下载大小: 9936635779
  • 数据集大小: 19031408037

配置

  • default:
    • 数据文件:
      • 分割: train
      • 路径: data/train-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作