PreSelect-100B

Name: PreSelect-100B
Creator: HKUST NLP Group
Published: 2025-02-18 14:33:07
License: 暂无描述

Hugging Face2025-02-18 更新2025-02-19 收录

下载链接：

https://huggingface.co/datasets/hkust-nlp/PreSelect-100B

下载链接

链接失效反馈

官方服务：

资源简介：

PreSelect-100B是一个精选的大约1000亿token的预训练数据集，它在各种基准测试中表现出色。该数据集通过在10%阈值下使用PreSelect分类器对DCLM-refinedweb数据集的随机子集进行筛选得到，DCLM-refinedweb是对Common Crawl原始数据进行清洗但不包含模型过滤的版本。

提供机构：

HKUST NLP Group

创建时间：

2025-02-18

搜集汇总

数据集介绍

构建方式

PreSelect-100B数据集的构建，是基于DCLM-refinedweb数据子集，该子集是经过清洗处理后的Common Crawl原始数据，未采用任何模型基础的过滤。通过PreSelect-Classifier对数据进行10%阈值的过滤筛选，最终形成约1000亿 tokens 的预训练数据集，旨在为各种语言任务提供高效的性能表现。

特点

该数据集的特点在于其庞大的规模和经过精心筛选的高质量文本。PreSelect-100B不仅展现了在多项基准测试中卓越的性能，而且其构建过程中未采用模型过滤，保证了数据原始性和多样性。此外，该数据集的开放性许可(MIT)使其易于在研究和商业应用中广泛采用。

使用方法

使用PreSelect-100B数据集，用户可以通过HuggingFace的 datasets 接口直接加载。数据集可用于预训练语言模型，亦可用于后续的下游任务训练。用户可以从数据集的官方网站获取使用说明，以及相关的模型训练和评估工具。

背景与挑战

背景概述

PreSelect-100B数据集，是由香港科技大学自然语言处理团队（hkust-nlp）在深度学习模型预训练领域的一项重要成果。该数据集于近年创建，旨在通过精心的筛选与过滤，打造出一个高质量的预训练语料库。它基于DCLM-refinedweb，即经过清洗处理但未经过模型筛选的Common Crawl原始数据，通过PreSelect-Classifier在10%的阈值下进行筛选，从而确保了数据的质量和多样性。该数据集的构建，不仅为自然语言处理领域提供了强大的数据支撑，也对推动模型预训练技术的发展产生了显著影响。

当前挑战

尽管PreSelect-100B数据集在多种基准测试中取得了优越的性能，但在构建过程中，研究团队仍然面临诸多挑战。首先，如何从海量的原始数据中有效筛选出高质量的文本数据，保持数据集的平衡性和多样性，是一大难题。其次，数据集的构建还需克服模型偏差和噪声数据的干扰，确保预训练模型的质量和泛化能力。此外，在数据集的实际应用中，如何进一步提高模型在下游任务中的表现，以及如何应对不断变化的语言环境，也是当前和未来研究的挑战所在。

常用场景

经典使用场景

在自然语言处理领域，PreSelect-100B数据集作为深度学习模型的预训练语料库，其经典使用场景在于为各种下游任务提供高质量的文本输入。该数据集通过严格的筛选机制，确保了文本的质量和相关性，从而使得基于此数据集训练的模型在多项任务中表现优异。

实际应用

在实际应用中，PreSelect-100B数据集被广泛用于提升自然语言理解模型的性能，如文本分类、情感分析、信息抽取等。其高质量的语料库能够显著提升模型的泛化能力和准确度，为搜索引擎、推荐系统、客户服务等领域提供了强有力的技术支撑。

衍生相关工作

基于PreSelect-100B数据集，学术界和工业界衍生出了一系列相关工作，包括但不限于对数据集的进一步清洗和扩展，以及针对特定NLP任务进行的模型优化和创新。这些工作不仅推动了自然语言处理技术的发展，也为相关领域的应用提供了新的视角和方法论。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集