trl-lib/capybara-preferencces-7k
收藏Hugging Face2024-04-15 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/trl-lib/capybara-preferencces-7k
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是argilla/distilabel-capybara-dpo-7k-binarized数据集的预处理版本,主要用于演示TRL中的各种脚本。数据集包含多个字段,如source、conversation、original_response等,这些字段用于存储对话数据、生成提示、原始响应等信息。数据集分为train和test两个部分,分别包含7463和100个样本。
该数据集是argilla/distilabel-capybara-dpo-7k-binarized数据集的预处理版本,主要用于演示TRL中的各种脚本。数据集包含多个字段,如source、conversation、original_response等,这些字段用于存储对话数据、生成提示、原始响应等信息。数据集分为train和test两个部分,分别包含7463和100个样本。
提供机构:
trl-lib
原始信息汇总
数据集概述
数据集特征
- source: 数据类型为字符串。
- conversation: 包含两个子特征:
- input: 数据类型为字符串。
- output: 数据类型为字符串。
- original_response: 数据类型为字符串。
- generation_prompt: 数据类型为字符串序列。
- raw_generation_responses: 数据类型为字符串序列。
- new_generations: 数据类型为字符串序列。
- prompt: 数据类型为字符串。
- chosen: 包含两个子特征:
- content: 数据类型为字符串。
- role: 数据类型为字符串。
- rejected: 包含两个子特征:
- content: 数据类型为字符串。
- role: 数据类型为字符串。
- rating_chosen: 数据类型为int64。
- rating_rejected: 数据类型为int64。
- chosen_model: 数据类型为字符串。
- rejected_model: 数据类型为字符串。
数据集分割
- train: 大小为344179834.9085019字节,包含7463个样本。
- test: 大小为4611816.0914980825字节,包含100个样本。
数据集大小
- 下载大小: 156809287字节。
- 数据集总大小: 348791651.0字节。
配置
- config_name: default
- data_files:
- train: 路径为data/train-*。
- test: 路径为data/test-*。



