MAGACorpus

Hugging Face2025-02-12 更新2025-02-13 收录

下载链接：

https://huggingface.co/datasets/bytedance-research/MAGACorpus

下载链接

链接失效反馈

官方服务：

资源简介：

Massive Genre-Audience Corpus (MAGACorpus)是一个基于SmolLM Corpus扩展的合成预训练语料库，通过两个阶段的合成过程，将原有文档扩展为5个新文档，实现了3.9倍的token数量扩展，同时通过大量的（体裁，受众）对保持多样性。该语料库用于模型预训练，并支持134M/377M/1.7B规模的模型从零开始训练。

Massive Genre-Audience Corpus (MAGACorpus) is a synthetic pre-training corpus extended from the SmolLM Corpus. Through a two-stage synthesis process, it expands the original documents into 5 new documents, achieving a 3.9-fold increase in token count, while maintaining diversity via a large number of (genre, audience) pairs. This corpus is designed for model pre-training, and supports training models of 134M, 377M, and 1.7B scales from scratch.

创建时间：

2025-02-06

搜集汇总

数据集介绍

构建方式

MAGACorpus数据集是基于SmolLM Corpus的fineweb-edu-dedup来源构建的，其原始的195B tokens经过扩展达到了770B tokens。该数据集的构建采用了两阶段的合成过程，每个文档被重构成5个新文档，实现了3.9倍的token数量扩展，同时通过大量的（体裁，受众）对保持了多样性。

特点

MAGACorpus数据集的特点在于它是一个合成预训练语料库，专为文本生成任务设计。它通过独特的体裁和受众配对，实现了对原始语料库的显著扩展，同时维持了文本的多样性。该数据集在许可ODC-By下提供，允许用户在遵守条款的前提下自由使用。

使用方法

使用MAGACorpus数据集时，用户可以通过HuggingFace的datasets库加载。加载后，数据集将提供包括chunk_id、docid、source、genre、audience等元信息，以及原始文本内容。用户可以依据自己的需求对数据进行分割和训练，以适应不同的文本生成任务。

背景与挑战

背景概述

MAGACorpus数据集，作为文本生成领域的合成预训练语料库，旨在通过大规模的文体和受众改革，实现语料库的扩展。该数据集基于SmolLM Corpus构建，其研究起始于2023年，由Hao Xintong、Shen Ke和Li Chenggang等研究人员提出，并在论文《MAGA: MAssive Genre-Audience Reformulation to Pretraining Corpus Expansion》中详细描述。MAGACorpus通过两阶段的合成过程，将原始语料库的每个文档重写成5个新文档，实现了3.9倍的标记数扩展，同时保持了多样性。该数据集的构建对文本生成模型的预训练具有重要的研究价值，并在自然语言处理领域产生了广泛的影响力。

当前挑战

MAGACorpus在构建过程中面临的挑战主要包括：如何通过合成过程保持原始语料的多样性和质量；如何在扩展语料库的同时，确保不同来源的文档在训练过程中具有一致的重复周期；以及如何处理大规模数据集在存储和计算资源上的需求。此外，数据集在解决文本生成领域问题，如提高生成文本的多样性和适应性方面，仍面临着如何更精确地捕捉和反映不同文体和受众需求的技术挑战。

常用场景

经典使用场景

MAGACorpus 数据集作为合成预训练语料库，其经典使用场景在于大规模语言模型的预训练。该数据集通过双重合成流程，将原始语料库中的每份文档转化为五份新文档，实现了 tokens 数量的显著扩展，同时保持了文本多样性。这种特性使其成为自然语言处理领域，尤其是在文本生成任务中，模型预训练的理想选择。

实际应用

在实际应用中，MAGACorpus 数据集可用于提升语言模型在各种文本生成任务中的性能，如自动写作、机器翻译、聊天机器人等。它为这些应用提供了丰富多样的文本素材，有助于模型生成更加自然、准确的语言表达。

衍生相关工作

基于MAGACorpus 数据集，研究者们已经开展了一系列相关工作，包括探索不同混合比例对模型训练效果的影响、分析体裁和受众多样性对模型性能的具体贡献等。这些工作进一步扩展了MAGACorpus 数据集的应用范围，并为其在自然语言处理领域的深入研究奠定了基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集