five

trl-lib/capybara-preferencces-7k

收藏
Hugging Face2024-04-15 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/trl-lib/capybara-preferencces-7k
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是argilla/distilabel-capybara-dpo-7k-binarized数据集的预处理版本,主要用于演示TRL中的各种脚本。数据集包含多个字段,如source、conversation、original_response等,这些字段用于存储对话数据、生成提示、原始响应等信息。数据集分为train和test两个部分,分别包含7463和100个样本。

该数据集是argilla/distilabel-capybara-dpo-7k-binarized数据集的预处理版本,主要用于演示TRL中的各种脚本。数据集包含多个字段,如source、conversation、original_response等,这些字段用于存储对话数据、生成提示、原始响应等信息。数据集分为train和test两个部分,分别包含7463和100个样本。
提供机构:
trl-lib
原始信息汇总

数据集概述

数据集特征

  • source: 数据类型为字符串。
  • conversation: 包含两个子特征:
    • input: 数据类型为字符串。
    • output: 数据类型为字符串。
  • original_response: 数据类型为字符串。
  • generation_prompt: 数据类型为字符串序列。
  • raw_generation_responses: 数据类型为字符串序列。
  • new_generations: 数据类型为字符串序列。
  • prompt: 数据类型为字符串。
  • chosen: 包含两个子特征:
    • content: 数据类型为字符串。
    • role: 数据类型为字符串。
  • rejected: 包含两个子特征:
    • content: 数据类型为字符串。
    • role: 数据类型为字符串。
  • rating_chosen: 数据类型为int64。
  • rating_rejected: 数据类型为int64。
  • chosen_model: 数据类型为字符串。
  • rejected_model: 数据类型为字符串。

数据集分割

  • train: 大小为344179834.9085019字节,包含7463个样本。
  • test: 大小为4611816.0914980825字节,包含100个样本。

数据集大小

  • 下载大小: 156809287字节。
  • 数据集总大小: 348791651.0字节。

配置

  • config_name: default
  • data_files:
    • train: 路径为data/train-*。
    • test: 路径为data/test-*。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作