five

javiersgjavi/fineweb-1BT

收藏
Hugging Face2025-08-31 更新2025-10-25 收录
下载链接:
https://hf-mirror.com/datasets/javiersgjavi/fineweb-1BT
下载链接
链接失效反馈
官方服务:
资源简介:
FineWeb-1BT是一个经过精心策划的10亿token子集,从HuggingFaceFW/fineweb数据集中独立采样而来,确保在整个10亿token语料库中的无偏代表。这个子集使用真正的随机采样方法创建,以保持原FineWeb数据集的语言/质量特性。

FineWeb-1BT is a carefully curated 1 billion token subset of the HuggingFaceFW/fineweb dataset, sampled exclusively from the official 10BT FineWeb subset, ensuring unbiased representation across the entire 10BT corpus. This subset was created using true random sampling to preserve the language/quality characteristics of the original FineWeb dataset.
提供机构:
javiersgjavi
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作