five

YUE-FAN/openwebtext_gcp

收藏
Hugging Face2024-07-05 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/YUE-FAN/openwebtext_gcp
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含文本数据,主要分为训练集和验证集两部分。训练集包含7,613,081个样本,总大小为37,781,191,768字节;验证集包含400,688个样本,总大小为1,988,299,920字节。整个数据集的下载大小为24,198,779,361字节,总数据集大小为39,769,491,688字节。

This dataset contains text data, primarily divided into a training set and a validation set. The training set consists of 7,613,081 samples with a total size of 37,781,191,768 bytes; the validation set consists of 400,688 samples with a total size of 1,988,299,920 bytes. The entire dataset has a download size of 24,198,779,361 bytes and a total dataset size of 39,769,491,688 bytes.
提供机构:
YUE-FAN
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作