MAGACorpus

Name: MAGACorpus
Creator: 字节跳动
Published: 2025-02-07 01:19:55
License: 暂无描述

arXiv2025-02-07 更新2025-02-11 收录

下载链接：

https://huggingface.co/datasets/bytedance-research/MAGACorpus

下载链接

链接失效反馈

官方服务：

资源简介：

MAGACorpus是由字节跳动研究团队创建的一个大规模预训练语料库，基于现有的高质量文本集合。该数据集通过MAGA重构方法进行扩展，生成具有多样性和上下文丰富的预训练数据。MAGACorpus包含7700亿个tokens，可以支持不同大小的模型进行训练，并在各种任务中展示了优越的性能。

提供机构：

字节跳动

创建时间：

2025-02-07

搜集汇总

数据集介绍

构建方式

MAGACorpus 数据集的构建采用了一种名为 MAssive Genre-Audience (MAGA) 的重写方法，该方法通过将现有的高质量文本集合进行系统性的重写，生成多样化的预训练数据。具体而言，MAGA 方法使用一个 3.3B MoE 模型，以原始文档作为输入，通过两阶段的合成过程将每个文档重写成 5 个新的文档，实现了 3.9 倍的 token 数量扩展，同时保持了多样性。此外，MAGA 方法还包括一个额外的启发式清洗阶段，用于过滤掉高频模式，并移除关键词覆盖率极低的文档。

特点

MAGACorpus 数据集具有以下特点：1) 数据量庞大，包含 7700 亿个 token；2) 数据质量高，通过 MAGA 方法的重写和清洗过程保持了信息的准确性和多样性；3) 数据类型丰富，涵盖了多种语言风格、内容结构和知识深度，能够满足不同受众的需求。

使用方法

MAGACorpus 数据集的使用方法如下：1) 将数据集作为预训练语料库，用于训练各种规模的语言模型；2) 将数据集与其他数据集进行混合，以提高模型的性能和泛化能力；3) 将数据集用于下游任务，例如问答、推理和数学问题解决等。

背景与挑战

背景概述

MAGACorpus，由字节跳动公司提出，旨在解决大规模预训练语言模型训练数据稀缺的问题。该数据集的创建始于2025年，由Hao Xintong等研究人员共同完成。其核心研究问题是如何通过合成数据扩充预训练语料库，以促进语言模型的持续扩展。MAGACorpus的成功构建及其在多种模型规模（134M-13B）上的应用，对相关领域产生了深远影响，为解决数据稀缺问题提供了可靠途径。

当前挑战

MAGACorpus在构建过程中面临的主要挑战包括：1) 如何从现有语料库中系统性地合成多样、丰富的预训练数据；2) 如何在合成过程中保持数据质量；3) 如何在有限的计算资源下高效生成大规模语料库；4) 如何评估合成数据对模型性能的影响。此外，MAGACorpus在应用过程中还面临着如何与传统数据扩充方法（如数据重复和上采样）进行有效结合的挑战。

常用场景

经典使用场景

MAGACorpus 数据集被广泛应用于大规模语言模型（LLMs）的预训练阶段，以解决高质量预训练数据稀缺的问题。通过使用 MAGA 改写方法，该数据集能够系统地合成多样化的、上下文丰富的预训练数据，从而显著扩展训练数据集。这使得 MAGACorpus 成为构建和训练下一代大规模语言模型的宝贵资源。

解决学术问题

MAGACorpus 数据集解决了当前语言模型训练中存在的数据稀缺问题。随着模型参数规模的不断扩大，高质量的自然语言数据变得越来越难以获取。MAGACorpus 通过合成方法，有效地扩展了训练数据集，从而为语言模型的持续扩展提供了可靠途径。此外，MAGACorpus 还揭示了传统崩溃检测指标的局限性，并为未来合成数据优化提供了重要见解。

衍生相关工作

MAGACorpus 数据集的提出和成功应用，激发了更多关于数据合成和预训练语言模型研究的兴趣。相关研究包括探索更有效的数据合成方法、优化预训练语言模型的训练策略以及改进崩溃检测指标等。这些研究工作有助于推动语言模型技术的发展，并为解决数据稀缺问题提供新的思路和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集