Magpie-Align/Magpie-Pro-MT-300K-v0.1|大型语言模型数据集|数据对齐数据集
收藏hugging_face2024-08-28 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/Magpie-Align/Magpie-Pro-MT-300K-v0.1
下载链接
链接失效反馈资源简介:
该数据集是通过Llama 3 70B Instruct模型使用Magpie方法生成的,包含了高质量的指令数据,并经过多轮扩展和过滤。数据集的主要用途是用于监督微调(SFT)模型,以提高模型的性能。数据集包含了300K个高质量的多轮对话实例,这些实例经过了严格的过滤,包括输入质量、输入难度、指令奖励等方面的筛选,并选择了响应最长的数据。
提供机构:
Magpie-Align
原始信息汇总
数据集信息
特征
- model: 类型为字符串。
- gen_input_config: 结构化数据,包含以下字段:
- temperature: 类型为浮点数(float64)。
- top_p: 类型为浮点数(float64)。
- input1: 类型为字符串。
- output1: 类型为字符串。
- input2: 类型为字符串。
- output2: 类型为字符串。
- conversations: 列表类型,包含以下字段:
- from: 类型为字符串。
- value: 类型为字符串。
- uuid: 类型为字符串。
数据分割
- train: 包含300,000个样本,占用3,293,376,888字节。
数据大小
- 下载大小: 1,802,127,742字节。
- 数据集大小: 3,293,376,888字节。
配置
- default: 数据文件路径为
data/train-*。



