five

MAGACorpus

收藏
Hugging Face2025-02-12 更新2025-02-13 收录
下载链接:
https://huggingface.co/datasets/bytedance-research/MAGACorpus
下载链接
链接失效反馈
官方服务:
资源简介:
Massive Genre-Audience Corpus (MAGACorpus)是一个基于SmolLM Corpus扩展的合成预训练语料库,通过两个阶段的合成过程,将原有文档扩展为5个新文档,实现了3.9倍的token数量扩展,同时通过大量的(体裁,受众)对保持多样性。该语料库用于模型预训练,并支持134M/377M/1.7B规模的模型从零开始训练。

Massive Genre-Audience Corpus (MAGACorpus) is a synthetic pre-training corpus extended from the SmolLM Corpus. Through a two-stage synthesis process, it expands the original documents into 5 new documents, achieving a 3.9-fold increase in token count, while maintaining diversity via a large number of (genre, audience) pairs. This corpus is designed for model pre-training, and supports training models of 134M, 377M, and 1.7B scales from scratch.
创建时间:
2025-02-06
搜集汇总
数据集介绍
main_image_url
构建方式
MAGACorpus数据集是基于SmolLM Corpus的fineweb-edu-dedup来源构建的,其原始的195B tokens经过扩展达到了770B tokens。该数据集的构建采用了两阶段的合成过程,每个文档被重构成5个新文档,实现了3.9倍的token数量扩展,同时通过大量的(体裁,受众)对保持了多样性。
特点
MAGACorpus数据集的特点在于它是一个合成预训练语料库,专为文本生成任务设计。它通过独特的体裁和受众配对,实现了对原始语料库的显著扩展,同时维持了文本的多样性。该数据集在许可ODC-By下提供,允许用户在遵守条款的前提下自由使用。
使用方法
使用MAGACorpus数据集时,用户可以通过HuggingFace的datasets库加载。加载后,数据集将提供包括chunk_id、docid、source、genre、audience等元信息,以及原始文本内容。用户可以依据自己的需求对数据进行分割和训练,以适应不同的文本生成任务。
背景与挑战
背景概述
MAGACorpus数据集,作为文本生成领域的合成预训练语料库,旨在通过大规模的文体和受众改革,实现语料库的扩展。该数据集基于SmolLM Corpus构建,其研究起始于2023年,由Hao Xintong、Shen Ke和Li Chenggang等研究人员提出,并在论文《MAGA: MAssive Genre-Audience Reformulation to Pretraining Corpus Expansion》中详细描述。MAGACorpus通过两阶段的合成过程,将原始语料库的每个文档重写成5个新文档,实现了3.9倍的标记数扩展,同时保持了多样性。该数据集的构建对文本生成模型的预训练具有重要的研究价值,并在自然语言处理领域产生了广泛的影响力。
当前挑战
MAGACorpus在构建过程中面临的挑战主要包括:如何通过合成过程保持原始语料的多样性和质量;如何在扩展语料库的同时,确保不同来源的文档在训练过程中具有一致的重复周期;以及如何处理大规模数据集在存储和计算资源上的需求。此外,数据集在解决文本生成领域问题,如提高生成文本的多样性和适应性方面,仍面临着如何更精确地捕捉和反映不同文体和受众需求的技术挑战。
常用场景
经典使用场景
MAGACorpus 数据集作为合成预训练语料库,其经典使用场景在于大规模语言模型的预训练。该数据集通过双重合成流程,将原始语料库中的每份文档转化为五份新文档,实现了 tokens 数量的显著扩展,同时保持了文本多样性。这种特性使其成为自然语言处理领域,尤其是在文本生成任务中,模型预训练的理想选择。
实际应用
在实际应用中,MAGACorpus 数据集可用于提升语言模型在各种文本生成任务中的性能,如自动写作、机器翻译、聊天机器人等。它为这些应用提供了丰富多样的文本素材,有助于模型生成更加自然、准确的语言表达。
衍生相关工作
基于MAGACorpus 数据集,研究者们已经开展了一系列相关工作,包括探索不同混合比例对模型训练效果的影响、分析体裁和受众多样性对模型性能的具体贡献等。这些工作进一步扩展了MAGACorpus 数据集的应用范围,并为其在自然语言处理领域的深入研究奠定了基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作