trl-internal-testing/hh-rlhf-helpful-base-trl-style

Name: trl-internal-testing/hh-rlhf-helpful-base-trl-style
Creator: trl-internal-testing
Published: 2024-05-02 14:59:15
License: 暂无描述

Hugging Face2024-05-02 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/trl-internal-testing/hh-rlhf-helpful-base-trl-style

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: chosen list: - name: content dtype: string - name: role dtype: string - name: rejected list: - name: content dtype: string - name: role dtype: string - name: prompt dtype: string splits: - name: train num_bytes: 71553768 num_examples: 43835 - name: test num_bytes: 3858452 num_examples: 2354 download_size: 42037894 dataset_size: 75412220 configs: - config_name: default data_files: - split: train path: data/train-* - split: test path: data/test-* --- # TRL's Anthropic HH Dataset We preprocess the dataset using our standard `prompt, chosen, rejected` format. ## Reproduce this dataset 1. Download the `anthropic_hh.py` from the https://huggingface.co/datasets/trl-internal-testing/hh-rlhf-helpful-base-trl-style/tree/0.1.0. 2. Run `python examples/datasets/anthropic_hh.py --push_to_hub --hf_entity trl-internal-testing`

--- dataset_info: 数据集信息: 特征: - 名称: 优选回复（chosen）列表类型: - 名称: 内容（content）数据类型: 字符串（string） - 名称: 角色（role）数据类型: 字符串（string） - 名称: 淘汰回复（rejected）列表类型: - 名称: 内容（content）数据类型: 字符串（string） - 名称: 角色（role）数据类型: 字符串（string） - 名称: 提示词（prompt）数据类型: 字符串（string）数据拆分: - 名称: 训练集（train）数据字节数: 71553768 样本数量: 43835 - 名称: 测试集（test）数据字节数: 3858452 样本数量: 2354 下载大小: 42037894 总数据集大小: 75412220 配置项: - 配置名称: 默认配置（default）数据文件: - 拆分: 训练集（train）路径: data/train-* - 拆分: 测试集（test）路径: data/test-* --- # TRL 旗下 Anthropic HH 数据集我们采用标准的`提示词（prompt）`、`优选回复（chosen）`、`淘汰回复（rejected）`格式对该数据集进行预处理。 ## 复现该数据集 1. 从 https://huggingface.co/datasets/trl-internal-testing/hh-rlhf-helpful-base-trl-style/tree/0.1.0 下载 `anthropic_hh.py` 文件。 2. 执行命令 `python examples/datasets/anthropic_hh.py --push_to_hub --hf_entity trl-internal-testing`

提供机构：

trl-internal-testing

原始信息汇总

数据集概述

数据集特征

chosen
- content: 数据类型为字符串
- role: 数据类型为字符串
rejected
- content: 数据类型为字符串
- role: 数据类型为字符串
prompt: 数据类型为字符串

数据集分割

train
- num_bytes: 71553768
- num_examples: 43835
test
- num_bytes: 3858452
- num_examples: 2354

数据集大小

download_size: 42037894
dataset_size: 75412220

数据文件配置

config_name: default
data_files
- train: 路径为data/train-*
- test: 路径为data/test-*

搜集汇总

数据集介绍

背景与挑战

背景概述

该数据集是一个用于强化学习人类反馈（RLHF）任务的对话数据集，包含46,189条文本数据，涵盖多种日常对话场景。数据集以prompt（用户提示）、chosen（优选回复）和rejected（拒绝回复）的格式组织，适用于训练和评估对话生成模型。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集