HuggingFaceTB/cosmopedia-meta
收藏Hugging Face2024-02-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/HuggingFaceTB/cosmopedia-meta
下载链接
链接失效反馈官方服务:
资源简介:
这是Cosmopedia数据集的元数据版本,其中`text`和`prompt`列已被删除。数据集包含特征如文本标记长度、种子数据、格式和受众等,并提供了训练集的分割信息。
提供机构:
HuggingFaceTB
原始信息汇总
数据集信息
特征
- text_token_length: 数据类型为
int64 - seed_data: 数据类型为
string - format: 数据类型为
string - audience: 数据类型为
string
数据分割
- train:
- 字节数: 1819967750
- 样本数: 31064744
数据大小
- 下载大小: 160513422
- 数据集大小: 1819967750
配置
- default:
- 数据文件:
- 分割: train
- 路径: data/train-*
- 数据文件:



