GneissWeb

Hugging Face2025-02-24 更新2025-02-25 收录

下载链接：

https://huggingface.co/datasets/ibm-granite/GneissWeb

下载链接

链接失效反馈

官方服务：

资源简介：

GneissWeb是一个大型预训练语言模型数据集，从FineWeb V1.1.0派生而来，包含了超过10万亿个高质量标记。它通过多方面的质量注释员组合实现了细粒度的质量过滤，旨在为预训练提供足够数量的高质量标记。GneissWeb数据集的构建包括精确字符串去重、自定义的Fasttext质量过滤器、分类器和可读性分数质量过滤器等步骤。评估结果显示，在7B参数的消融模型上，GneissWeb数据集比FineWeb V1.1.0的标记平均提高了2%。

创建时间：

2025-02-13

搜集汇总

数据集介绍

构建方式

GneissWeb数据集的构建，是在FineWeb V1.1.0的基础上，通过一系列精细的质量过滤和分类步骤，旨在生成超过10万亿高质量标记的预训练数据集。该过程包括精确子字符串去重、自定义的Fasttext质量过滤器、分类器以及针对可读性和极端标记质量的自定义过滤器，这些步骤层层递进，以确保数据集的质量和数量的最佳平衡。

特点

GneissWeb数据集的特点在于其高质量的数据来源和精细的过滤机制。它不仅包含了大量的高质量标记，而且通过多方面的质量标注者组成的集合，实现了对文档的细粒度质量过滤。此外，数据集的构建允许调整过滤阈值，使其既适用于预训练，也适用于退火处理。在多个通用基准测试中，基于GneissWeb的7B参数模型显示出比FineWeb V1.1.0标记平均超过2%的性能提升。

使用方法

使用GneissWeb数据集时，用户可以利用提供的数据准备工具包中的转换和笔记本，来重现数据集的构建过程。此外，通过提供的Fasttext模型和Bloom过滤器，用户可以快速重现GneissWeb的一个近似版本，尽管这不包括所有的注释或过滤器。用户可以根据需要调整过滤阈值，以适应不同的预训练场景。

背景与挑战

背景概述

GneissWeb数据集是由IBM研究团队于2025年2月10日发布的一个用于大型语言模型预训练的高质量数据集。该数据集在FineWeb V1.1.0的基础上，通过一系列精细的质量过滤和分类步骤，生成了超过10万亿个高质量标记，旨在为预训练提供足够数量的优质标记。GneissWeb的创建过程中，采用了多方面的质量标注者组合，以实现质量和数量的精细平衡。该数据集的发布对于推动语言模型领域的研究具有重要意义，其高质量的数据为模型提供了更加精确的预训练基础。

当前挑战

在构建GneissWeb数据集的过程中，研究人员面临了多个挑战。首先，如何在保持数据量的同时确保数据质量，是数据集构建的核心问题。为此，研究团队开发了多种质量过滤机制。其次，构建过程中的另一个挑战是有效地进行数据去重和分类，以保证数据集的多样性和针对性。此外，对数据集进行评估和验证，确保其对于模型预训练的有效性，也是一项重要的挑战。GneissWeb在多个常用基准测试中表现出了优于FineWeb V1.1.0的性能，但如何在更广泛的任务中验证其效果，仍然是一个持续的挑战。

常用场景

经典使用场景

GneissWeb数据集作为一款高质量的预训练语言模型数据集，其经典的使用场景主要集中于大规模的预训练任务，例如构建大型的语言模型。通过其精细的质量过滤和分类机制，GneissWeb能够为预训练任务提供质量上乘、覆盖面广泛的文本数据，助力提升语言模型的生成能力和理解能力。

解决学术问题

GneissWeb数据集解决了现有数据集在质量和数量平衡上的难题，通过引入多维度质量标注和精细化的过滤策略，既保证了数据的质量，又维护了数据的规模。这对于学术研究中追求高质量预训练数据的需求具有重要的意义，能够帮助研究者更准确地评估模型性能，推动自然语言处理领域的发展。

衍生相关工作

基于GneissWeb数据集，已经衍生出了一系列相关的工作，包括但不限于对数据集本身的质量评估、性能分析，以及利用该数据集进行语言模型预训练的各种实证研究。这些工作不仅推动了GneissWeb数据集的广泛应用，也为自然语言处理领域的研究提供了新的视角和方法论。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集