five

ADSKAILab/tilegpt_ifc_130k_split_tokenized_16k

收藏
Hugging Face2025-03-02 更新2025-04-12 收录
下载链接:
https://hf-mirror.com/datasets/ADSKAILab/tilegpt_ifc_130k_split_tokenized_16k
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个包含输入ID序列的数据集,分为训练集、验证集和测试集。训练集包含3720502个示例,验证集包含205202个示例,测试集包含206345个示例。整个数据集的大小为270GB,下载大小为61GB。数据集提供了默认配置,其中指定了训练集、验证集和测试集的数据文件路径。

This dataset contains sequences of input IDs, split into training, validation, and test sets. The training set includes 3,720,502 examples, the validation set includes 205,202 examples, and the test set includes 206,345 examples. The total size of the dataset is 270GB, with a download size of 61GB. The dataset provides a default configuration that specifies the data file paths for the training, validation, and test sets.
提供机构:
ADSKAILab
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作