flexitok/training_data
收藏Hugging Face2025-12-14 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/flexitok/training_data
下载链接
链接失效反馈官方服务:
资源简介:
该数据集源自FineWeb-Edu和FineWeb-2-HQ,经过预洗牌并分割成8个块(最大50GB),适用于使用Meta的Lingua Framework进行预训练。
Derived from FineWeb-Edu and FineWeb-2-HQ, this data is preshuffled and split into 8 chunks (max 50GB) suitable for pre-training using Metas Lingua Framework.
提供机构:
flexitok



