davidberenstein1957/ultrafeedback-binarized-cleaned-and-filtered-random-split

Name: davidberenstein1957/ultrafeedback-binarized-cleaned-and-filtered-random-split
Creator: davidberenstein1957
Published: 2024-03-14 10:08:45
License: 暂无描述

Hugging Face2024-03-14 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/davidberenstein1957/ultrafeedback-binarized-cleaned-and-filtered-random-split

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: source dtype: string - name: prompt dtype: string - name: average_rating dtype: float64 - name: chosen list: - name: content dtype: string - name: role dtype: string - name: chosen-rating dtype: float64 - name: chosen-model dtype: string - name: rejected list: - name: content dtype: string - name: role dtype: string - name: rejected-rating dtype: float64 - name: rejected-model dtype: string splits: - name: train num_bytes: 23989266.3470273 num_examples: 5348 - name: test num_bytes: 5997316.586756825 num_examples: 1337 download_size: 16433623 dataset_size: 29986582.933784127 configs: - config_name: default data_files: - split: train path: data/train-* - split: test path: data/test-* ---

提供机构：

davidberenstein1957

原始信息汇总

数据集概述

数据集特征

source：数据类型为字符串。
prompt：数据类型为字符串。
average_rating：数据类型为浮点数。
chosen：包含两个子特征：
- content：数据类型为字符串。
- role：数据类型为字符串。
chosen-rating：数据类型为浮点数。
chosen-model：数据类型为字符串。
rejected：包含两个子特征：
- content：数据类型为字符串。
- role：数据类型为字符串。
rejected-rating：数据类型为浮点数。
rejected-model：数据类型为字符串。

数据集分割

train：包含5348个示例，总大小为23989266.3470273字节。
test：包含1337个示例，总大小为5997316.586756825字节。

数据集大小

下载大小：16433623字节。
数据集总大小：29986582.933784127字节。

配置文件

default：
- train：数据文件路径为data/train-*。
- test：数据文件路径为data/test-*。

5,000+

优质数据集

54 个

任务类型

进入经典数据集