five

timaeus/dsir-pile-13m-filtered-for-pubmed-abstracts

收藏
Hugging Face2024-11-15 更新2024-12-14 收录
下载链接:
https://hf-mirror.com/datasets/timaeus/dsir-pile-13m-filtered-for-pubmed-abstracts
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含三个主要特征:contents(内容,数据类型为字符串)、metadata(元数据,包含一个名为pile_set_name的字符串序列)和id(标识符,数据类型为int64)。数据集分为一个训练集(train),包含294,546个样本,总大小为468,391,687.57字节。下载大小为296,482,810字节。配置信息显示数据集的默认配置包含一个训练集文件路径。

The dataset contains three main features: contents (content, data type is string), metadata (metadata, containing a sequence of strings named pile_set_name), and id (identifier, data type is int64). The dataset is divided into a training set (train) containing 294,546 samples, with a total size of 468,391,687.57 bytes. The download size is 296,482,810 bytes. The configuration information shows that the default configuration of the dataset includes a training set file path.
提供机构:
timaeus
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作