FinerWeb-10BT
收藏arXiv2025-01-13 更新2025-01-15 收录
下载链接:
http://arxiv.org/abs/2501.07314v1
下载链接
链接失效反馈官方服务:
资源简介:
FinerWeb-10BT是由图尔库大学的研究团队创建的一个高质量文本数据集,旨在提升大语言模型(LLMs)的训练数据质量。该数据集基于FineWeb数据集,通过GPT-4o mini模型进行行级过滤,生成了10B个token的样本,约1500万条文档。数据集的内容主要来自CommonCrawl,经过预处理和过滤,去除了低质量文本,如版权声明、编程代码和格式化元素等。数据集的创建过程包括使用GPT-4o mini对20,000条文档进行行级标注,并通过DeBERTa-v3分类器进行大规模过滤。该数据集的应用领域主要是大语言模型的训练,旨在通过提高数据质量来提升模型的性能和训练效率,同时减少训练所需的计算资源。
FinerWeb-10BT is a high-quality text dataset developed by a research team at the University of Turku, with the core objective of enhancing the quality of training data for Large Language Models (LLMs). Built on the basis of the FineWeb dataset, it generates 10 billion-token samples comprising approximately 15 million documents through line-level filtering using the GPT-4o mini model. The dataset primarily sources its content from CommonCrawl, and has been subjected to preprocessing and filtering procedures to eliminate low-quality texts including copyright notices, programming code, and formatting elements. The dataset creation workflow includes conducting line-level annotations on 20,000 documents via GPT-4o mini, followed by large-scale filtering using the DeBERTa-v3 classifier. Its primary application domain is the training of LLMs, where it aims to improve model performance and training efficiency while reducing the computational resources consumed during model training by elevating the quality of training data.
提供机构:
图尔库大学
创建时间:
2025-01-13
搜集汇总
数据集介绍

构建方式
FinerWeb-10BT数据集的构建基于FineWeb数据集,通过使用GPT-4o mini模型对20,000个文档进行逐行标注,生成描述性标签以识别低质量文本。这些标签被分为九大类,并利用DeBERTa-v3分类器对FineWeb的10B-token子集进行扩展过滤。最终,通过训练GPT-2模型验证过滤效果,结果表明过滤后的数据集在HellaSwag基准测试中表现更优,且训练效率显著提升。
特点
FinerWeb-10BT数据集的特点在于其精细的逐行过滤机制,能够有效识别并去除低质量文本,如版权声明、编程代码和格式化元素等。数据集通过LLM驱动的动态标签生成,避免了传统启发式过滤的局限性,确保了高质量文本的保留。此外,该数据集经过严格的分类器训练和验证,确保了过滤结果的准确性和可靠性。
使用方法
FinerWeb-10BT数据集的使用方法包括将其用于训练大型语言模型,特别是通过对比过滤前后的数据集,评估模型在HellaSwag等基准测试中的表现。研究人员可以利用该数据集进行数据质量改进的实验,探索如何通过减少低质量数据来提升模型性能。此外,数据集还提供了代码库,支持用户复现实验并进一步优化过滤流程。
背景与挑战
背景概述
FinerWeb-10BT数据集是由Turku大学的研究团队于2025年提出的,旨在通过基于大语言模型(LLM)的行级过滤方法提升大规模语言模型(LLM)训练数据的质量。该数据集的构建基于FineWeb数据集,后者是一个从CommonCrawl中提取的15万亿词规模的英文文本集合。研究团队使用GPT-4o mini对FineWeb中的20,000个文档进行行级标注,生成547个低质量文本标签,并将其归类为9个主要类别。随后,团队训练了一个DeBERTa-v3分类器,用于对FineWeb的10B词子集进行过滤。实验表明,经过过滤的数据集在训练GPT-2模型时,能够显著提升模型在HellaSwag基准测试中的表现,并减少训练时间。FinerWeb-10BT的发布为LLM训练数据的质量提升提供了新的思路和方法。
当前挑战
FinerWeb-10BT数据集在构建和应用过程中面临多重挑战。首先,传统的启发式过滤方法难以精确识别低质量文本,容易误删高质量内容或保留低质量数据。其次,数据标注过程依赖于LLM生成标签,虽然能够动态生成标签,但标签的多样性和复杂性增加了后续分类的难度。此外,数据集的规模庞大,行级过滤需要大量计算资源,且分类器的训练和优化过程复杂。最后,尽管过滤后的数据集在模型训练中表现出色,但其在低资源语言中的泛化能力尚未得到验证,限制了其在多语言场景中的应用。这些挑战表明,未来需要在数据过滤的自动化、分类器的优化以及多语言支持方面进行进一步研究。
常用场景
经典使用场景
FinerWeb-10BT数据集在自然语言处理领域中被广泛用于训练和评估大型语言模型(LLMs)。其最经典的使用场景是通过细粒度的行级过滤方法,提升训练数据的质量。研究人员利用该数据集对模型进行预训练,并通过对比原始数据和过滤后数据的模型表现,验证数据过滤对模型性能的提升效果。特别是在HellaSwag等基准测试中,FinerWeb-10BT展示了其在提升模型推理能力方面的显著优势。
解决学术问题
FinerWeb-10BT数据集解决了传统启发式过滤方法在数据清洗中的局限性问题。传统方法往往无法准确识别低质量文本,甚至可能误删高质量内容。通过引入基于LLM的行级过滤方法,FinerWeb-10BT能够更精确地识别和去除低质量数据,从而显著提升模型训练效率和性能。实验表明,使用过滤后的数据训练的模型在HellaSwag基准测试中表现更优,且训练时间大幅缩短,为解决数据质量与模型性能之间的平衡问题提供了新的思路。
衍生相关工作
FinerWeb-10BT的发布推动了基于LLM的数据过滤和清洗技术的进一步发展。许多相关研究工作借鉴了其行级过滤方法,开发了更高效的数据预处理工具。例如,一些研究团队利用类似的LLM驱动方法,优化了多语言数据集的质量过滤流程。此外,FinerWeb-10BT还为其他领域的数据集清洗提供了参考,如代码数据集、教育内容数据集等,推动了数据质量评估和过滤技术的标准化和普及。
以上内容由遇见数据集搜集并总结生成



