tasksource/oasst1_pairwise_rlhf_reward

Hugging Face2023-07-04 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/tasksource/oasst1_pairwise_rlhf_reward

下载链接

链接失效反馈

资源简介：

该数据集是基于OASST1数据集预处理得到的，专门用于奖励建模。数据集中包含了多种语言的对话数据，每个对话包括一个提示（prompt）、一个被选择的回复（chosen）和一个被拒绝的回复（rejected）。数据集分为训练集和验证集，分别包含17966和952个样本。数据集的下载大小为22371458字节，总大小为42888880字节。

提供机构：

tasksource

原始信息汇总

数据集概述

数据集名称

名称: oasst1_pairwise_rlhf_reward

数据集特征

特征列表:
- lang: 数据类型为字符串
- parent_id: 数据类型为字符串
- prompt: 数据类型为字符串
- chosen: 数据类型为字符串
- rejected: 数据类型为字符串

数据集分割

训练集:
- 样本数量: 17966
- 数据大小: 40736437字节
验证集:
- 样本数量: 952
- 数据大小: 2152443字节

数据集大小

下载大小: 22371458字节
总数据集大小: 42888880字节

支持的语言

en, es, ru, de, pl, th, vi, sv, bn, da, he, it, fa, sk, id, nb, el, nl, hu, eu, zh, eo, ja, ca, cs, bg, fi, pt, tr, ro, ar, uk, gl, fr, ko

数据集处理

数据集经过预处理，用于奖励建模。处理步骤包括数据加载、合并、索引设置、历史记录构建、数据筛选和特征提取，最终形成包含特定特征的数据集，并上传至数据集仓库。

搜集汇总

数据集介绍

背景与挑战

背景概述

This dataset is a processed version of OASST1, tailored for reward modeling tasks, featuring text pairs in various languages with human preference rankings. It includes 18,918 rows, primarily in English, Spanish, and Russian, among others, and is designed to train models to discern and prioritize higher-quality responses based on annotated preferences.

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集