HuggingFaceH4/h4_10k_prompts_ranked_gen

Name: HuggingFaceH4/h4_10k_prompts_ranked_gen
Creator: HuggingFaceH4
Published: 2024-04-01 08:25:48
License: 暂无描述

Hugging Face2024-04-01 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/HuggingFaceH4/h4_10k_prompts_ranked_gen

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个特征，如prompt、quality、metadata、avg_rating等，每个特征都有其特定的数据类型和用途。数据集被分为train_gen和test_gen两个部分，分别包含9831和500个样本，文件大小分别为13703266.368018584和696941.6319814152字节。整个数据集的大小为14400208.0字节，下载大小为6895638字节。

提供机构：

HuggingFaceH4

原始信息汇总

数据集概述

数据集特征

prompt: 数据类型为字符串。
quality: 包含以下子特征：
- user_id: 数据类型为字符串，标识为"question"。
- value: 数据类型为字符串，标识为"suggestion"。
- status: 数据类型为字符串，标识为"question"。
metadata: 数据类型为字符串，标识为"metadata"。
avg_rating: 数据类型为浮点数64位。
num_responses: 数据类型为整数64位。
agreement_ratio: 数据类型为浮点数64位。
raw_responses: 数据类型为整数64位序列。
kind: 数据类型为字符串。
cluster_description: 数据类型为字符串。
topic: 数据类型为字符串。
messages: 包含以下子特征：
- content: 数据类型为字符串。
- role: 数据类型为字符串。

数据集分割

train_gen: 包含9831个样本，占用13703266.368018584字节。
test_gen: 包含500个样本，占用696941.6319814152字节。

数据集大小

下载大小: 6895638字节。
数据集总大小: 14400208.0字节。

配置文件

config_name: default
data_files:
- train_gen: 路径为"data/train_gen-*"。
- test_gen: 路径为"data/test_gen-*"。

5,000+

优质数据集

54 个

任务类型

进入经典数据集