trl-internal-testing/hh-rlhf-helpful-base-trl-style
收藏Hugging Face2024-05-02 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/trl-internal-testing/hh-rlhf-helpful-base-trl-style
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: chosen
list:
- name: content
dtype: string
- name: role
dtype: string
- name: rejected
list:
- name: content
dtype: string
- name: role
dtype: string
- name: prompt
dtype: string
splits:
- name: train
num_bytes: 71553768
num_examples: 43835
- name: test
num_bytes: 3858452
num_examples: 2354
download_size: 42037894
dataset_size: 75412220
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: test
path: data/test-*
---
# TRL's Anthropic HH Dataset
We preprocess the dataset using our standard `prompt, chosen, rejected` format.
## Reproduce this dataset
1. Download the `anthropic_hh.py` from the https://huggingface.co/datasets/trl-internal-testing/hh-rlhf-helpful-base-trl-style/tree/0.1.0.
2. Run `python examples/datasets/anthropic_hh.py --push_to_hub --hf_entity trl-internal-testing`
---
dataset_info:
数据集信息:
特征:
- 名称: 优选回复(chosen)
列表类型:
- 名称: 内容(content)
数据类型: 字符串(string)
- 名称: 角色(role)
数据类型: 字符串(string)
- 名称: 淘汰回复(rejected)
列表类型:
- 名称: 内容(content)
数据类型: 字符串(string)
- 名称: 角色(role)
数据类型: 字符串(string)
- 名称: 提示词(prompt)
数据类型: 字符串(string)
数据拆分:
- 名称: 训练集(train)
数据字节数: 71553768
样本数量: 43835
- 名称: 测试集(test)
数据字节数: 3858452
样本数量: 2354
下载大小: 42037894
总数据集大小: 75412220
配置项:
- 配置名称: 默认配置(default)
数据文件:
- 拆分: 训练集(train)
路径: data/train-*
- 拆分: 测试集(test)
路径: data/test-*
---
# TRL 旗下 Anthropic HH 数据集
我们采用标准的`提示词(prompt)`、`优选回复(chosen)`、`淘汰回复(rejected)`格式对该数据集进行预处理。
## 复现该数据集
1. 从 https://huggingface.co/datasets/trl-internal-testing/hh-rlhf-helpful-base-trl-style/tree/0.1.0 下载 `anthropic_hh.py` 文件。
2. 执行命令 `python examples/datasets/anthropic_hh.py --push_to_hub --hf_entity trl-internal-testing`
提供机构:
trl-internal-testing
原始信息汇总
数据集概述
数据集特征
- chosen
- content: 数据类型为字符串
- role: 数据类型为字符串
- rejected
- content: 数据类型为字符串
- role: 数据类型为字符串
- prompt: 数据类型为字符串
数据集分割
- train
- num_bytes: 71553768
- num_examples: 43835
- test
- num_bytes: 3858452
- num_examples: 2354
数据集大小
- download_size: 42037894
- dataset_size: 75412220
数据文件配置
- config_name: default
- data_files
- train: 路径为
data/train-* - test: 路径为
data/test-*
- train: 路径为
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是一个用于强化学习人类反馈(RLHF)任务的对话数据集,包含46,189条文本数据,涵盖多种日常对话场景。数据集以prompt(用户提示)、chosen(优选回复)和rejected(拒绝回复)的格式组织,适用于训练和评估对话生成模型。
以上内容由遇见数据集搜集并总结生成



