kashif/nectar_dpo_pairs

Name: kashif/nectar_dpo_pairs
Creator: kashif
Published: 2023-12-01 12:14:22
License: 暂无描述

Hugging Face2023-12-01 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/kashif/nectar_dpo_pairs

下载链接

链接失效反馈

官方服务：

资源简介：

Nectar DPO Pairs数据集主要用于强化学习从人类反馈（RLHF）和强化学习从人工智能反馈（RLAIF）的奖励模型训练。数据集包含三个主要特征：prompt（提示）、chosen（选择）和rejected（拒绝），这些特征的数据类型均为字符串。数据集的大小类别为100K到1M之间，语言为英语，许可证为cc-by-nc-4.0。数据集包含一个训练集，大小为8651355540字节，包含3842034个示例。

提供机构：

kashif

原始信息汇总

数据集概述

基本信息

许可证: cc-by-nc-4.0
语言: 英语
大小分类: 100K<n<1M

数据集详情

数据集名称: Nectar DPO Pairs
数据集来源: berkeley-nest/Nectar

数据结构

特征:
- prompt: 数据类型为字符串
- chosen: 数据类型为字符串
- rejected: 数据类型为字符串

数据分割

训练集:
- 数据量: 3842034个样本
- 存储大小: 8651355540字节
- 下载大小: 911865387字节

配置

默认配置:
- 数据文件路径: data/train-*