Magpie-Align/Llama-3-Magpie-Pro-1M-v0.1
收藏Hugging Face2024-08-21 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/Magpie-Align/Llama-3-Magpie-Pro-1M-v0.1
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是通过Llama 3 70B Instruct模型使用Magpie方法生成的,包含了100万个训练样本。数据集的特征包括uuid、model、gen_input_config、input、output、conversations、task_category、difficulty、intent、knowledge、input_quality、quality_explanation、llama_guard_2、reward_model、instruct_reward、base_output、base_reward、reward_difference、min_neighbor_distance、repeat_count、min_similar_uuid、input_length和output_length。数据集的标签包括输入长度、输出长度、任务类别、输入质量、输入难度、最小邻居距离、安全性、指令奖励、基础奖励和奖励差异。
该数据集是通过Llama 3 70B Instruct模型使用Magpie方法生成的,包含了100万个训练样本。数据集的特征包括uuid、model、gen_input_config、input、output、conversations、task_category、difficulty、intent、knowledge、input_quality、quality_explanation、llama_guard_2、reward_model、instruct_reward、base_output、base_reward、reward_difference、min_neighbor_distance、repeat_count、min_similar_uuid、input_length和output_length。数据集的标签包括输入长度、输出长度、任务类别、输入质量、输入难度、最小邻居距离、安全性、指令奖励、基础奖励和奖励差异。
提供机构:
Magpie-Align
原始信息汇总
数据集信息
特征
- uuid: 字符串类型
- model: 字符串类型
- gen_input_config: 结构体类型
- temperature: 浮点数类型
- top_p: 浮点数类型
- input: 字符串类型
- output: 字符串类型
- conversations: 列表类型
- from: 字符串类型
- value: 字符串类型
- task_category: 字符串类型
- difficulty: 字符串类型
- intent: 字符串类型
- knowledge: 字符串类型
- input_quality: 字符串类型
- quality_explanation: 字符串类型
- llama_guard_2: 字符串类型
- reward_model: 字符串类型
- instruct_reward: 浮点数类型
- base_output: 字符串类型
- base_reward: 浮点数类型
- reward_difference: 浮点数类型
- min_neighbor_distance: 浮点数类型
- repeat_count: 整数类型
- min_similar_uuid: 字符串类型
- input_length: 整数类型
- output_length: 整数类型
数据分割
- train:
- 字节数: 7246816028
- 样本数: 1000000
数据大小
- 下载大小: 4024435165
- 数据集大小: 7246816028
配置
- default:
- 数据文件:
- 分割: train
- 路径: data/train-*
- 数据文件:



