five

xTimeCrystal/TinyCorpus

收藏
Hugging Face2025-06-05 更新2025-10-25 收录
下载链接:
https://hf-mirror.com/datasets/xTimeCrystal/TinyCorpus
下载链接
链接失效反馈
官方服务:
资源简介:
TinyCorpus是一个由Lucas S维护的高质量文本数据集,大小约250B字节。它主要用于教育和实验目的,训练参数小于50M的字节级英语模型。该数据集采用UTF-8编码,使用特定的字节标记文本的开始和结束。数据来源包括55%的FineWeb Edu,35%的DCLM Edu,10%的FineMath,1%经过筛选的StarCoderData Python(教育分数≥3),以及0.1%的WritingPrompts Curated。

TinyCorpus is a high-quality text dataset curated by Lucas S, approximately 250B bytes in size. It is primarily used for educational and experimental purposes to train byte-level English models with less than 50M parameters. The dataset is encoded in UTF-8, using specific bytes to mark the beginning and end of text. The sources of the data include 55% FineWeb Edu, 35% DCLM Edu, 10% FineMath, 1% Filtered StarCoderData Python (Educational Score ≥3), and 0.1% WritingPrompts Curated.
提供机构:
xTimeCrystal
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作