five

apart/SmolLM2-135M-1M-rows

收藏
Hugging Face2025-10-21 更新2025-10-25 收录
下载链接:
https://hf-mirror.com/datasets/apart/SmolLM2-135M-1M-rows
下载链接
链接失效反馈
官方服务:
资源简介:
这个数据集是从EleutherAI的SmolLM2-135M-10B数据集下采样而来,大约有原来的十分之一。原始数据集是由SmolLM2语料库中的四个完整高质量数据集和DCLM-Edu及FineWeb-Edu的部分数据混合而成,按照6:4的比例抽样。这些子数据集包括FineMath、Stack-Edu、InfiMM-WebMath、Cosmopedia V2、FineWeb-Edu和DCLM-Edu。

This dataset is a downsampling from EleutherAIs SmolLM2-135M-10B dataset, roughly one-tenth of the original. The base dataset is a mixture of four complete high-quality datasets from the SmolLM2 corpus, along with selected portions of DCLM-Edu and FineWeb-Edu, sampled at a 6:4 ratio. These include FineMath, Stack-Edu, InfiMM-WebMath, Cosmopedia V2, FineWeb-Edu, and DCLM-Edu.
提供机构:
apart
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作