five

Ultra-FineWeb

收藏
arXiv2025-05-09 更新2025-05-10 收录
下载链接:
https://huggingface.co/datasets/openbmb/UltraFineWeb
下载链接
链接失效反馈
官方服务:
资源简介:
Ultra-FineWeb是一个高质量的大语言模型预训练数据集,由清华大学、苏州大学和ModelBest Inc.的研究人员创建。数据集包含约1万亿个英文Tokens和1200亿个中文Tokens。该数据集通过一个高效的数据过滤流程创建,该流程基于一个高效的验证策略,该策略使用一个预训练的大语言模型来快速评估候选语料库对LLM训练性能的影响。Ultra-FineWeb旨在提高大语言模型在多个基准任务上的性能,并促进高质量LLM训练的发展。

Ultra-FineWeb is a high-quality large language model (LLM) pre-training dataset, created by researchers from Tsinghua University, Soochow University, and ModelBest Inc. The dataset contains approximately 1 trillion English Tokens and 120 billion Chinese Tokens. It is built through an efficient data filtering pipeline based on a high-performance validation strategy, which uses a pre-trained large language model to rapidly evaluate the impact of candidate corpora on LLM training performance. Ultra-FineWeb aims to enhance the performance of large language models across multiple benchmark tasks and promote the development of high-quality LLM training.
提供机构:
清华大学, 苏州大学, ModelBest Inc.
创建时间:
2025-05-09
原始信息汇总

Ultra-FineWeb 数据集概述

基本信息

  • 数据集名称: Ultra-FineWeb
  • 语言: 英语 (en)、中文 (zh)
  • 任务类别: 文本生成 (text-generation)
  • 规模: 大于1T tokens
  • 数据集组成:
    • Ultra-FineWeb-en: 约1T tokens
    • Ultra-FineWeb-zh: 约120B tokens
  • 数据特征:
    • content: 文本内容 (string)
    • score: 评分 (float)
    • source: 数据来源 (string)

数据集来源

  • Ultra-FineWeb-en: 基于FineWeb数据集
  • Ultra-FineWeb-zh: 基于多个中文数据集,包括IndustryCorpus2、MiChao、WuDao、SkyPile、WanJuan、ChineseWebText、TeleChat和CCI3

技术亮点

  1. 高效验证策略: 以最小计算成本快速评估数据对LLM训练的影响
  2. 高效数据过滤管道: 优化正负样本选择,提高过滤效率、分类器质量和鲁棒性
  3. 轻量级分类器: 基于fastText实现,显著降低推理成本

评估结果

  • 评估模型: MiniCPM-1.2B架构,MiniCPM3-4B分词器
  • 训练规模: 每个实验训练100B tokens
  • 评估基准:
    • 英语: MMLU, ARC-C, ARC-E, CommonSenseQA, HellaSwag, OpenbookQA, PIQA, SIQA, Winogrande
    • 中文: C-Eval, CMMLU
  • 评估设置: 零样本(zero-shot)设置

引用

bibtex @misc{wang2025ultrafineweb, title={{Ultra-FineWeb}: Efficient Data Filtering and Verification for High-Quality LLM Training Data}, author={Yudong Wang and Zixuan Fu and Jie Cai and Peijun Tang and Hongya Lyu and Yewei Fang and Zhi Zheng and Jie Zhou and Guoyang Zeng and Chaojun Xiao and Xu Han and Zhiyuan Liu}, year={2025}, eprint={2505.05427}, archivePrefix={arXiv}, primaryClass={cs.CL}, }

许可证

  • 项目许可证: MIT
  • 注意: 由于数据集基于多个来源构建,用户需单独检查每个数据集的许可证以确保合规使用
搜集汇总
数据集介绍
main_image_url
构建方式
Ultra-FineWeb数据集的构建采用了高效的数据过滤和验证策略,通过模型驱动的方法从大规模网络数据中筛选高质量内容。具体流程包括:首先构建初始候选种子池,利用高效的验证策略快速评估数据对大型语言模型(LLM)训练的影响;随后通过优化的正负样本选择策略训练基于fastText的轻量级分类器,实现对原始数据的多轮迭代过滤。该流程显著降低了计算成本,同时确保了数据质量。最终,该方法成功应用于FineWeb和Chinese FineWeb数据集,生成了包含约1万亿英文标记和1200亿中文标记的高质量语料库。
特点
Ultra-FineWeb数据集的核心特点体现在三个方面:规模上,其跨语言覆盖能力(中英文合计1.12万亿标记)为多语言模型训练提供了坚实基础;质量上,通过创新的高效验证策略和分类器优化,数据信息密度显著提升,实证显示使用该数据训练的模型在MMLU、ARC等基准任务中平均提升3.61个百分比点;效率方面,采用fastText分类器将15万亿标记的处理时间从6000GPU小时压缩至1000CPU小时,且通过两阶段退火策略将验证成本降低90%。这些特性使其成为当前最具性价比的LLM训练数据集之一。
使用方法
该数据集主要适用于大规模语言模型的预训练阶段,建议采用以下应用方案:在数据准备时,可直接加载经过标准化处理的HuggingFace格式数据,其已包含去重、文本清洗和标记化处理;模型训练阶段推荐采用渐进式课程学习策略,优先使用高质量子集进行初期训练。研究者可通过比较Ultra-FineWeb与原始FineWeb在不同训练步长的性能曲线,动态调整数据混合比例。对于特定领域适配,建议利用数据集提供的质量分数元数据实施加权采样。需注意中英文数据应保持7:3的比例以实现最佳跨语言迁移效果。
背景与挑战
背景概述
Ultra-FineWeb数据集由ModelBest Inc.、清华大学和苏州大学的研究团队于2025年提出,旨在解决大语言模型(LLM)训练中数据质量的关键问题。该数据集基于FineWeb和Chinese FineWeb数据集,通过高效的数据过滤和验证流程构建,包含约1万亿英文标记和1200亿中文标记。其核心研究问题聚焦于如何通过模型驱动的数据过滤方法,从海量互联网数据中高效提取高质量训练样本,以提升LLM在代码生成、逻辑推理等多领域的性能表现。该数据集通过创新的轻量级fastText分类器和高效验证策略,显著降低了计算成本,为LLM训练数据的质量控制提供了新范式。
当前挑战
Ultra-FineWeb主要应对两大挑战:在领域问题层面,传统启发式过滤方法难以识别复杂内容噪声,而基于人工标注或LLM的过滤方案存在计算成本高、主观性强的问题;在构建过程层面,需解决种子数据选择缺乏客观标准(依赖专家经验)、质量验证效率低下(需完整训练LLM评估)等难题。具体表现为:1)现有验证策略需消耗1200 H100 GPU小时进行全量训练评估;2)分类器训练数据中正负样本比例失衡影响模型鲁棒性;3)多源异构数据(如网页文本、教材、指令数据)的语义差异增加了质量统一评估难度。
常用场景
经典使用场景
Ultra-FineWeb数据集作为高质量的大规模预训练语料库,广泛应用于大型语言模型(LLM)的训练与优化。其核心场景包括模型驱动的数据过滤与验证,通过高效的分类器筛选出信息密集的文本数据,显著提升模型在代码生成、逻辑推理及科学研究等领域的表现。该数据集特别适用于需要快速迭代和高效验证的研究环境,为LLM的预训练提供了可靠的基准数据。
解决学术问题
Ultra-FineWeb解决了数据质量验证效率低下和种子数据选择主观性两大核心学术问题。通过引入高效的验证策略,该数据集能够在极低计算成本下快速评估数据对模型训练的影响,同时优化了正负样本的选择标准,减少了人为干预的偏差。其轻量级分类器设计进一步降低了实验和推理成本,为数据过滤流程的效率与鲁棒性设定了新标准。
衍生相关工作
Ultra-FineWeb推动了多个经典工作的衍生,包括基于高效验证策略的迭代过滤框架、轻量级fastText分类器的优化应用,以及多源种子数据选择方法。其技术路线被扩展至DCLM-Pool和MAP-CC等异构数据集,验证了泛化能力。相关工作还涉及数据质量评估标准的量化研究,为后续的领域专用数据集(如数学、法律)构建提供了方法论基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作