GneissWeb
收藏Hugging Face2025-02-24 更新2025-02-25 收录
下载链接:
https://huggingface.co/datasets/ibm-granite/GneissWeb
下载链接
链接失效反馈官方服务:
资源简介:
GneissWeb是一个大型预训练语言模型数据集,从FineWeb V1.1.0派生而来,包含了超过10万亿个高质量标记。它通过多方面的质量注释员组合实现了细粒度的质量过滤,旨在为预训练提供足够数量的高质量标记。GneissWeb数据集的构建包括精确字符串去重、自定义的Fasttext质量过滤器、分类器和可读性分数质量过滤器等步骤。评估结果显示,在7B参数的消融模型上,GneissWeb数据集比FineWeb V1.1.0的标记平均提高了2%。
创建时间:
2025-02-13
搜集汇总
数据集介绍

构建方式
GneissWeb数据集的构建,是在FineWeb V1.1.0的基础上,通过一系列精细的质量过滤和分类步骤,旨在生成超过10万亿高质量标记的预训练数据集。该过程包括精确子字符串去重、自定义的Fasttext质量过滤器、分类器以及针对可读性和极端标记质量的自定义过滤器,这些步骤层层递进,以确保数据集的质量和数量的最佳平衡。
特点
GneissWeb数据集的特点在于其高质量的数据来源和精细的过滤机制。它不仅包含了大量的高质量标记,而且通过多方面的质量标注者组成的集合,实现了对文档的细粒度质量过滤。此外,数据集的构建允许调整过滤阈值,使其既适用于预训练,也适用于退火处理。在多个通用基准测试中,基于GneissWeb的7B参数模型显示出比FineWeb V1.1.0标记平均超过2%的性能提升。
使用方法
使用GneissWeb数据集时,用户可以利用提供的数据准备工具包中的转换和笔记本,来重现数据集的构建过程。此外,通过提供的Fasttext模型和Bloom过滤器,用户可以快速重现GneissWeb的一个近似版本,尽管这不包括所有的注释或过滤器。用户可以根据需要调整过滤阈值,以适应不同的预训练场景。
背景与挑战
背景概述
GneissWeb数据集是由IBM研究团队于2025年2月10日发布的一个用于大型语言模型预训练的高质量数据集。该数据集在FineWeb V1.1.0的基础上,通过一系列精细的质量过滤和分类步骤,生成了超过10万亿个高质量标记,旨在为预训练提供足够数量的优质标记。GneissWeb的创建过程中,采用了多方面的质量标注者组合,以实现质量和数量的精细平衡。该数据集的发布对于推动语言模型领域的研究具有重要意义,其高质量的数据为模型提供了更加精确的预训练基础。
当前挑战
在构建GneissWeb数据集的过程中,研究人员面临了多个挑战。首先,如何在保持数据量的同时确保数据质量,是数据集构建的核心问题。为此,研究团队开发了多种质量过滤机制。其次,构建过程中的另一个挑战是有效地进行数据去重和分类,以保证数据集的多样性和针对性。此外,对数据集进行评估和验证,确保其对于模型预训练的有效性,也是一项重要的挑战。GneissWeb在多个常用基准测试中表现出了优于FineWeb V1.1.0的性能,但如何在更广泛的任务中验证其效果,仍然是一个持续的挑战。
常用场景
经典使用场景
GneissWeb数据集作为一款高质量的预训练语言模型数据集,其经典的使用场景主要集中于大规模的预训练任务,例如构建大型的语言模型。通过其精细的质量过滤和分类机制,GneissWeb能够为预训练任务提供质量上乘、覆盖面广泛的文本数据,助力提升语言模型的生成能力和理解能力。
解决学术问题
GneissWeb数据集解决了现有数据集在质量和数量平衡上的难题,通过引入多维度质量标注和精细化的过滤策略,既保证了数据的质量,又维护了数据的规模。这对于学术研究中追求高质量预训练数据的需求具有重要的意义,能够帮助研究者更准确地评估模型性能,推动自然语言处理领域的发展。
衍生相关工作
基于GneissWeb数据集,已经衍生出了一系列相关的工作,包括但不限于对数据集本身的质量评估、性能分析,以及利用该数据集进行语言模型预训练的各种实证研究。这些工作不仅推动了GneissWeb数据集的广泛应用,也为自然语言处理领域的研究提供了新的视角和方法论。
以上内容由遇见数据集搜集并总结生成



