ZhangShenao/newpgc_fine_ultrafeedback

Name: ZhangShenao/newpgc_fine_ultrafeedback
Creator: ZhangShenao
Published: 2024-07-19 20:14:06
License: 暂无描述

Hugging Face2024-07-19 更新2024-07-22 收录

下载链接：

https://hf-mirror.com/datasets/ZhangShenao/newpgc_fine_ultrafeedback

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个特征，如prompt（提示）、prompt_id（提示ID）、chosen（选择的回答）、rejected（拒绝的回答）、messages（消息）等。每个特征都有其特定的数据类型，例如字符串或浮点数。数据集被分为train_prefs（训练偏好）和test_prefs（测试偏好）两个部分，分别包含不同的字节数和示例数。train_prefs部分包含713,305,388字节和95,106个示例，而test_prefs部分包含13,675,818字节和2,000个示例。整个数据集的下载大小为369,146,525字节，总大小为726,981,206字节。

This dataset contains multiple features such as prompt, prompt_id, chosen, rejected, messages, etc. Each feature has its specific data type, such as string or float. The dataset is divided into two parts: train_prefs and test_prefs, each containing different byte sizes and numbers of examples. The train_prefs part contains 713,305,388 bytes and 95,106 examples, while the test_prefs part contains 13,675,818 bytes and 2,000 examples. The entire dataset has a download size of 369,146,525 bytes and a total size of 726,981,206 bytes.

提供机构：

ZhangShenao

原始信息汇总

数据集概述

数据集信息

特征

prompt: 类型为字符串。
prompt_id: 类型为字符串。
chosen: 包含以下子特征：
- content: 类型为字符串。
- role: 类型为字符串。
rejected: 包含以下子特征：
- content: 类型为字符串。
- role: 类型为字符串。
messages: 包含以下子特征：
- content: 类型为字符串。
- role: 类型为字符串。
overall_score_chosen: 类型为浮点数。
overall_score_rejected: 类型为浮点数。
fine_grain_score_chosen: 类型为浮点数序列。
fine_grain_score_rejected: 类型为浮点数序列。
avg_fine_score_chosen: 类型为浮点数。
avg_fine_score_rejected: 类型为浮点数。

数据分割

train_prefs:
- 字节数: 713305388
- 样本数: 95106
test_prefs:
- 字节数: 13675818
- 样本数: 2000

数据集大小

下载大小: 369146525 字节
数据集总大小: 726981206 字节

配置

config_name: default
- data_files:
  - train_prefs: 路径为 data/train_prefs-*
  - test_prefs: 路径为 data/test_prefs-*

5,000+

优质数据集

54 个

任务类型

进入经典数据集