heegyu/hh-rlhf-vicuna-format
收藏Hugging Face2023-09-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/heegyu/hh-rlhf-vicuna-format
下载链接
链接失效反馈官方服务:
资源简介:
该数据集来源于Antrophic/hh-rlhf,并转换为Vicuna格式。数据集包含训练集和测试集,分别有160800和8552个样本。数据集的特征包括chosen、rejected、source、context和instruction。chosen和rejected字段包含from和value子字段,source字段有四个可能的值:harmless-base、helpful-base、helpful-online、helpful-rejection-sampled。context字段是一个列表,包含from和value子字段,instruction字段也包含from和value子字段。在chosen、rejected和context字段中,from键的值要么是human,要么是gpt。
提供机构:
heegyu
原始信息汇总
数据集概述
数据配置
- 默认配置:
- 训练集:路径为
data/train-* - 测试集:路径为
data/test-*
- 训练集:路径为
数据特征
- 特征列表:
- chosen:
- from:数据类型为
string - value:数据类型为
string
- from:数据类型为
- rejected:
- from:数据类型为
string - value:数据类型为
string
- from:数据类型为
- source:数据类型为
string - context:列表类型
- from:数据类型为
string - value:数据类型为
string
- from:数据类型为
- instruction:
- from:数据类型为
string - value:数据类型为
string
- from:数据类型为
- chosen:
数据分割
- 训练集:
- 字节数:210,193,081
- 样本数:160,800
- 测试集:
- 字节数:11,248,194
- 样本数:8,552
数据大小
- 下载大小:128,509,060 字节
- 数据集大小:221,441,275 字节



