five

SmallDoge/DMA-Pretrain

收藏
Hugging Face2025-04-30 更新2025-05-31 收录
下载链接:
https://hf-mirror.com/datasets/SmallDoge/DMA-Pretrain
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含两种配置:decay_8192_8B和stable_2048_32B。每种配置都包括input_ids和attention_mask两个字段,分别为int32类型的序列和int8类型的序列。数据集被划分为训练集,其中decay_8192_8B配置的训练集包含100万示例,大小为28666203830字节;stable_2048_32B配置的训练集包含1600万示例,大小为147526268015字节。

The dataset consists of two configurations: decay_8192_8B and stable_2048_32B. Each configuration includes two fields, input_ids and attention_mask, which are sequences of type int32 and int8 respectively. The dataset is split into training sets, with the decay_8192_8B configurations training set containing 1,000,000 examples and being 28,666,203,830 bytes in size; the stable_2048_32B configurations training set contains 16,000,000 examples and is 147,526,268,015 bytes in size.
提供机构:
SmallDoge
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作