HuggingFaceH4/h4_10k_prompts_ranked_gen
收藏Hugging Face2024-04-01 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/HuggingFaceH4/h4_10k_prompts_ranked_gen
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个特征,如prompt、quality、metadata、avg_rating等,每个特征都有其特定的数据类型和用途。数据集被分为train_gen和test_gen两个部分,分别包含9831和500个样本,文件大小分别为13703266.368018584和696941.6319814152字节。整个数据集的大小为14400208.0字节,下载大小为6895638字节。
该数据集包含多个特征,如prompt、quality、metadata、avg_rating等,每个特征都有其特定的数据类型和用途。数据集被分为train_gen和test_gen两个部分,分别包含9831和500个样本,文件大小分别为13703266.368018584和696941.6319814152字节。整个数据集的大小为14400208.0字节,下载大小为6895638字节。
提供机构:
HuggingFaceH4
原始信息汇总
数据集概述
数据集特征
- prompt: 数据类型为字符串。
- quality: 包含以下子特征:
- user_id: 数据类型为字符串,标识为"question"。
- value: 数据类型为字符串,标识为"suggestion"。
- status: 数据类型为字符串,标识为"question"。
- metadata: 数据类型为字符串,标识为"metadata"。
- avg_rating: 数据类型为浮点数64位。
- num_responses: 数据类型为整数64位。
- agreement_ratio: 数据类型为浮点数64位。
- raw_responses: 数据类型为整数64位序列。
- kind: 数据类型为字符串。
- cluster_description: 数据类型为字符串。
- topic: 数据类型为字符串。
- messages: 包含以下子特征:
- content: 数据类型为字符串。
- role: 数据类型为字符串。
数据集分割
- train_gen: 包含9831个样本,占用13703266.368018584字节。
- test_gen: 包含500个样本,占用696941.6319814152字节。
数据集大小
- 下载大小: 6895638字节。
- 数据集总大小: 14400208.0字节。
配置文件
- config_name: default
- data_files:
- train_gen: 路径为"data/train_gen-*"。
- test_gen: 路径为"data/test_gen-*"。



