five

PreSelect-100B

收藏
Hugging Face2025-02-18 更新2025-02-19 收录
下载链接:
https://huggingface.co/datasets/hkust-nlp/PreSelect-100B
下载链接
链接失效反馈
官方服务:
资源简介:
PreSelect-100B是一个精选的大约1000亿token的预训练数据集,它在各种基准测试中表现出色。该数据集通过在10%阈值下使用PreSelect分类器对DCLM-refinedweb数据集的随机子集进行筛选得到,DCLM-refinedweb是对Common Crawl原始数据进行清洗但不包含模型过滤的版本。
提供机构:
HKUST NLP Group
创建时间:
2025-02-18
搜集汇总
数据集介绍
main_image_url
构建方式
PreSelect-100B数据集的构建,是基于DCLM-refinedweb数据子集,该子集是经过清洗处理后的Common Crawl原始数据,未采用任何模型基础的过滤。通过PreSelect-Classifier对数据进行10%阈值的过滤筛选,最终形成约1000亿 tokens 的预训练数据集,旨在为各种语言任务提供高效的性能表现。
特点
该数据集的特点在于其庞大的规模和经过精心筛选的高质量文本。PreSelect-100B不仅展现了在多项基准测试中卓越的性能,而且其构建过程中未采用模型过滤,保证了数据原始性和多样性。此外,该数据集的开放性许可(MIT)使其易于在研究和商业应用中广泛采用。
使用方法
使用PreSelect-100B数据集,用户可以通过HuggingFace的 datasets 接口直接加载。数据集可用于预训练语言模型,亦可用于后续的下游任务训练。用户可以从数据集的官方网站获取使用说明,以及相关的模型训练和评估工具。
背景与挑战
背景概述
PreSelect-100B数据集,是由香港科技大学自然语言处理团队(hkust-nlp)在深度学习模型预训练领域的一项重要成果。该数据集于近年创建,旨在通过精心的筛选与过滤,打造出一个高质量的预训练语料库。它基于DCLM-refinedweb,即经过清洗处理但未经过模型筛选的Common Crawl原始数据,通过PreSelect-Classifier在10%的阈值下进行筛选,从而确保了数据的质量和多样性。该数据集的构建,不仅为自然语言处理领域提供了强大的数据支撑,也对推动模型预训练技术的发展产生了显著影响。
当前挑战
尽管PreSelect-100B数据集在多种基准测试中取得了优越的性能,但在构建过程中,研究团队仍然面临诸多挑战。首先,如何从海量的原始数据中有效筛选出高质量的文本数据,保持数据集的平衡性和多样性,是一大难题。其次,数据集的构建还需克服模型偏差和噪声数据的干扰,确保预训练模型的质量和泛化能力。此外,在数据集的实际应用中,如何进一步提高模型在下游任务中的表现,以及如何应对不断变化的语言环境,也是当前和未来研究的挑战所在。
常用场景
经典使用场景
在自然语言处理领域,PreSelect-100B数据集作为深度学习模型的预训练语料库,其经典使用场景在于为各种下游任务提供高质量的文本输入。该数据集通过严格的筛选机制,确保了文本的质量和相关性,从而使得基于此数据集训练的模型在多项任务中表现优异。
实际应用
在实际应用中,PreSelect-100B数据集被广泛用于提升自然语言理解模型的性能,如文本分类、情感分析、信息抽取等。其高质量的语料库能够显著提升模型的泛化能力和准确度,为搜索引擎、推荐系统、客户服务等领域提供了强有力的技术支撑。
衍生相关工作
基于PreSelect-100B数据集,学术界和工业界衍生出了一系列相关工作,包括但不限于对数据集的进一步清洗和扩展,以及针对特定NLP任务进行的模型优化和创新。这些工作不仅推动了自然语言处理技术的发展,也为相关领域的应用提供了新的视角和方法论。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作