five

trl-internal-testing/hh-rlhf-helpful-base-trl-style

收藏
Hugging Face2024-05-02 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/trl-internal-testing/hh-rlhf-helpful-base-trl-style
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: chosen list: - name: content dtype: string - name: role dtype: string - name: rejected list: - name: content dtype: string - name: role dtype: string - name: prompt dtype: string splits: - name: train num_bytes: 71553768 num_examples: 43835 - name: test num_bytes: 3858452 num_examples: 2354 download_size: 42037894 dataset_size: 75412220 configs: - config_name: default data_files: - split: train path: data/train-* - split: test path: data/test-* --- # TRL's Anthropic HH Dataset We preprocess the dataset using our standard `prompt, chosen, rejected` format. ## Reproduce this dataset 1. Download the `anthropic_hh.py` from the https://huggingface.co/datasets/trl-internal-testing/hh-rlhf-helpful-base-trl-style/tree/0.1.0. 2. Run `python examples/datasets/anthropic_hh.py --push_to_hub --hf_entity trl-internal-testing`

--- dataset_info: 数据集信息: 特征: - 名称: 优选回复(chosen) 列表类型: - 名称: 内容(content) 数据类型: 字符串(string) - 名称: 角色(role) 数据类型: 字符串(string) - 名称: 淘汰回复(rejected) 列表类型: - 名称: 内容(content) 数据类型: 字符串(string) - 名称: 角色(role) 数据类型: 字符串(string) - 名称: 提示词(prompt) 数据类型: 字符串(string) 数据拆分: - 名称: 训练集(train) 数据字节数: 71553768 样本数量: 43835 - 名称: 测试集(test) 数据字节数: 3858452 样本数量: 2354 下载大小: 42037894 总数据集大小: 75412220 配置项: - 配置名称: 默认配置(default) 数据文件: - 拆分: 训练集(train) 路径: data/train-* - 拆分: 测试集(test) 路径: data/test-* --- # TRL 旗下 Anthropic HH 数据集 我们采用标准的`提示词(prompt)`、`优选回复(chosen)`、`淘汰回复(rejected)`格式对该数据集进行预处理。 ## 复现该数据集 1. 从 https://huggingface.co/datasets/trl-internal-testing/hh-rlhf-helpful-base-trl-style/tree/0.1.0 下载 `anthropic_hh.py` 文件。 2. 执行命令 `python examples/datasets/anthropic_hh.py --push_to_hub --hf_entity trl-internal-testing`
提供机构:
trl-internal-testing
原始信息汇总

数据集概述

数据集特征

  • chosen
    • content: 数据类型为字符串
    • role: 数据类型为字符串
  • rejected
    • content: 数据类型为字符串
    • role: 数据类型为字符串
  • prompt: 数据类型为字符串

数据集分割

  • train
    • num_bytes: 71553768
    • num_examples: 43835
  • test
    • num_bytes: 3858452
    • num_examples: 2354

数据集大小

  • download_size: 42037894
  • dataset_size: 75412220

数据文件配置

  • config_name: default
  • data_files
    • train: 路径为data/train-*
    • test: 路径为data/test-*
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是一个用于强化学习人类反馈(RLHF)任务的对话数据集,包含46,189条文本数据,涵盖多种日常对话场景。数据集以prompt(用户提示)、chosen(优选回复)和rejected(拒绝回复)的格式组织,适用于训练和评估对话生成模型。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作