regmix-data

Hugging Face2024-07-11 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/sail/regmix-data

下载链接

链接失效反馈

官方服务：

资源简介：

RegMix Data数据集是从Pile-Uncopyrighted数据集中精心挑选出来的，专门为RegMix论文设计。该数据集旨在通过将语言模型预训练中的高性能数据混合识别问题转化为回归任务，从而促进自动识别。数据集大小约为1TB，包含250B个令牌，遵循各领域示例的自然令牌分布。数据集分为训练和验证两个主要目录，每个目录包含特定领域的JSONL文件。数据集包括多个领域，如arxiv、gutenberg_pg_19等。建议下载整个数据集快照，而不是使用传统的load_dataset函数，因为RegMix代码与TinyLlama框架集成。数据预处理将这些领域文件处理成带有领域前缀的二进制格式，允许使用用户定义的数据混合（即领域权重）进行随机抽样。

创建时间：

2024-07-02

原始信息汇总

RegMix Data 数据集概述

数据集描述

RegMix Data 是一个精心策划的数据集，源自 Pile-Uncopyrighted，专门为 RegMix 论文设计。该数据集旨在通过将语言模型预训练中的高性能数据混合识别问题转化为回归任务，从而促进自动识别。

关键特性：

大小：约 1TB 磁盘空间，250B 个令牌
分布：遵循领域示例的自然令牌分布
组织：不同领域的示例被分离到单独的文件中

数据集结构

数据集分为两个主要目录：train 和 valid，每个目录包含领域特定的 JSONL 文件。文件命名约定如下：

[domain]-[identifier]-[number].jsonl

例如：arxiv-10-74305611.jsonl

包含的领域：

arxiv, gutenberg_pg_19, pubmed_central, dm_mathematics, hackernews, stackexchange, enron_emails, nih_exporter, ubuntu_irc, europarl, philpapers, uspto_backgrounds, freelaw, pile_cc, wikipedia_en, github, pubmed_abstracts

使用方法

建议下载整个数据集快照，而不是使用传统的 load_dataset 函数，因为 RegMix 代码与 TinyLlama 框架集成。

下载数据集的代码示例如下：

python from huggingface_hub import snapshot_download

LOCAL_DIR = "regmix-data" snapshot_download(repo_id="sail/regmix-data", repo_type=dataset, local_dir=LOCAL_DIR, local_dir_use_symlinks=False)

这将下载整个快照，包含 34 个 JSON 行文件（17 个用于训练，17 个用于验证），到指定的本地目录。

数据预处理

我们的代码将这些领域文件预处理为带有领域前缀的二进制格式。它允许使用用户定义的数据混合（即领域权重）进行随机抽样。

引用

如果您在研究中使用此数据集，请引用 RegMix 论文：

@article{liu2024regmix, title={RegMix: Data Mixture as Regression for Language Model Pre-training}, author={Liu, Qian and Zheng, Xiaosen and Muennighoff, Niklas and Zeng, Guangtao and Dou, Longxu and Pang, Tianyu and Jiang, Jing and Lin, Min}, journal={arXiv preprint arXiv:2407.01492}, year={2024} }

搜集汇总

数据集介绍

构建方式

RegMix数据集源自Pile-Uncopyrighted数据集，专为RegMix论文设计，旨在通过回归任务的形式，自动识别语言模型预训练中的高效数据混合策略。该数据集经过精心筛选和组织，涵盖了多个领域的文本数据，并以JSONL文件的形式存储，每个文件对应一个特定领域的文本内容。数据集的构建过程注重保持原始数据的自然分布，确保每个领域的文本分布与其实际应用场景一致。

使用方法

使用RegMix数据集时，建议通过Hugging Face Hub的`snapshot_download`函数下载整个数据集快照，而非传统的`load_dataset`方法。下载后，数据集包含34个JSONL文件，分别用于训练和验证。用户可以通过RegMix代码库对数据进行预处理，将其转换为二进制格式，并支持根据自定义的数据混合比例进行随机采样。这种灵活的使用方式使得用户能够根据具体任务需求，调整数据混合策略，从而优化语言模型的预训练效果。

背景与挑战

背景概述

RegMix数据集由SAIL（Stanford Artificial Intelligence Laboratory）的研究团队于2024年创建，旨在为语言模型预训练提供高效的数据混合策略。该数据集基于Pile-Uncopyrighted数据集构建，专注于通过回归任务自动识别高性能的数据混合比例。其核心研究问题在于如何通过数据混合优化语言模型的预训练效果，从而提升模型在多种自然语言处理任务中的表现。RegMix数据集的发布为语言模型预训练领域提供了新的研究视角，推动了数据驱动优化方法的发展。

当前挑战

RegMix数据集在构建和应用中面临多重挑战。首先，数据混合的优化问题本身具有高度复杂性，需要平衡不同领域数据的分布与模型性能之间的关系。其次，数据集的规模庞大（约1TB，250B tokens），对存储和计算资源提出了较高要求。此外，数据预处理和随机采样的实现需要高效的算法支持，以确保在训练过程中能够灵活调整数据混合比例。这些挑战不仅考验了数据处理的技术能力，也对模型的训练效率和泛化性能提出了更高要求。

常用场景

经典使用场景

RegMix Data数据集主要用于语言模型预训练中的数据混合优化研究。通过将数据混合问题转化为回归任务，该数据集为研究者提供了一个系统化的框架，用于自动识别和优化不同领域数据在预训练中的权重分配。这一过程不仅提升了模型的泛化能力，还为大规模语言模型的训练效率提供了新的解决方案。

解决学术问题

RegMix Data解决了语言模型预训练中数据混合优化的核心问题。传统方法通常依赖人工经验或固定比例的数据混合，难以适应不同任务的需求。该数据集通过回归任务的形式，帮助研究者自动识别最优的数据混合比例，从而显著提升了模型在多样化任务中的表现。这一创新为语言模型预训练领域提供了新的研究方向，推动了数据驱动优化方法的发展。

实际应用

在实际应用中，RegMix Data为大规模语言模型的预训练提供了高效的数据支持。例如，在自然语言处理任务中，如机器翻译、文本生成和问答系统，该数据集能够帮助开发者优化数据混合策略，从而提升模型的性能和适应性。此外，该数据集还可用于教育、医疗和法律等领域的文本分析任务，为跨领域应用提供了高质量的数据基础。

数据集最近研究