five

vwxyzjn/hh-rlhf-trl-style

收藏
Hugging Face2024-03-13 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/vwxyzjn/hh-rlhf-trl-style
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: info struct: - name: id dtype: string - name: post dtype: string - name: title dtype: string - name: subreddit dtype: string - name: site dtype: string - name: article dtype: string - name: summaries list: - name: text dtype: string - name: policy dtype: string - name: note dtype: string - name: choice dtype: int32 - name: worker dtype: string - name: batch dtype: string - name: split dtype: string - name: extra struct: - name: confidence dtype: int32 - name: prompt dtype: string - name: chosen list: - name: content dtype: string - name: role dtype: string - name: rejected list: - name: content dtype: string - name: role dtype: string splits: - name: train num_bytes: 315969 num_examples: 50 - name: validation num_bytes: 325197 num_examples: 50 download_size: 150469 dataset_size: 641166 configs: - config_name: default data_files: - split: train path: data/train-* - split: validation path: data/validation-* --- # TRL's Anthropic HH Dataset We preprocess the dataset using our standard `prompt, chosen, rejected` format. ## Reproduce this dataset 1. Download the `tldr_preference.py` from the https://huggingface.co/datasets/vwxyzjn/hh-rlhf-trl-style/tree/0.1.0. 2. Run `python examples/datasets/tldr_preference.py --debug --push_to_hub`
提供机构:
vwxyzjn
原始信息汇总

数据集概述

数据集结构

主要特征

  • info

    • id: 字符串类型
    • post: 字符串类型
    • title: 字符串类型
    • subreddit: 字符串类型
    • site: 字符串类型
    • article: 字符串类型
  • summaries

    • text: 字符串类型
    • policy: 字符串类型
    • note: 字符串类型
  • choice: 整数类型(int32)

  • worker: 字符串类型

  • batch: 字符串类型

  • split: 字符串类型

  • extra

    • confidence: 整数类型(int32)
  • prompt: 字符串类型

  • chosen

    • content: 字符串类型
    • role: 字符串类型
  • rejected

    • content: 字符串类型
    • role: 字符串类型

数据集分割

  • train

    • 大小: 315969 字节
    • 示例数量: 50
  • validation

    • 大小: 325197 字节
    • 示例数量: 50

数据集大小

  • 下载大小: 150469 字节
  • 数据集总大小: 641166 字节
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作