five

openbmb/Ultra-FineWeb

收藏
Hugging Face2025-12-10 更新2025-05-31 收录
下载链接:
https://hf-mirror.com/datasets/openbmb/Ultra-FineWeb
下载链接
链接失效反馈
官方服务:
资源简介:
Ultra-FineWeb是一个大规模、高质量、且经过高效过滤的数据集。它通过提出的高效验证基于模型驱动的数据过滤管道,对FineWeb和Chinese FineWeb数据集进行处理,创建了约1万亿个英文token的Ultra-FineWeb-en数据集和约1200亿个中文token的Ultra-FineWeb-zh数据集。该数据集可以促进高质量的大型语言模型训练。

Ultra-FineWeb is a large-scale, high-quality, and efficiently-filtered dataset. It is created by applying an efficient verification-based high-quality filtering pipeline to the FineWeb and Chinese FineWeb datasets, resulting in the Ultra-FineWeb-en dataset with approximately 1 trillion English tokens and the Ultra-FineWeb-zh dataset with approximately 120 billion Chinese tokens. This dataset is designed to facilitate high-quality training for large language models.
提供机构:
openbmb
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作