five

MAGACorpus

收藏
arXiv2025-02-07 更新2025-02-11 收录
下载链接:
https://huggingface.co/datasets/bytedance-research/MAGACorpus
下载链接
链接失效反馈
官方服务:
资源简介:
MAGACorpus是由字节跳动研究团队创建的一个大规模预训练语料库,基于现有的高质量文本集合。该数据集通过MAGA重构方法进行扩展,生成具有多样性和上下文丰富的预训练数据。MAGACorpus包含7700亿个tokens,可以支持不同大小的模型进行训练,并在各种任务中展示了优越的性能。
提供机构:
字节跳动
创建时间:
2025-02-07
搜集汇总
数据集介绍
main_image_url
构建方式
MAGACorpus 数据集的构建采用了一种名为 MAssive Genre-Audience (MAGA) 的重写方法,该方法通过将现有的高质量文本集合进行系统性的重写,生成多样化的预训练数据。具体而言,MAGA 方法使用一个 3.3B MoE 模型,以原始文档作为输入,通过两阶段的合成过程将每个文档重写成 5 个新的文档,实现了 3.9 倍的 token 数量扩展,同时保持了多样性。此外,MAGA 方法还包括一个额外的启发式清洗阶段,用于过滤掉高频模式,并移除关键词覆盖率极低的文档。
特点
MAGACorpus 数据集具有以下特点:1) 数据量庞大,包含 7700 亿个 token;2) 数据质量高,通过 MAGA 方法的重写和清洗过程保持了信息的准确性和多样性;3) 数据类型丰富,涵盖了多种语言风格、内容结构和知识深度,能够满足不同受众的需求。
使用方法
MAGACorpus 数据集的使用方法如下:1) 将数据集作为预训练语料库,用于训练各种规模的语言模型;2) 将数据集与其他数据集进行混合,以提高模型的性能和泛化能力;3) 将数据集用于下游任务,例如问答、推理和数学问题解决等。
背景与挑战
背景概述
MAGACorpus,由字节跳动公司提出,旨在解决大规模预训练语言模型训练数据稀缺的问题。该数据集的创建始于2025年,由Hao Xintong等研究人员共同完成。其核心研究问题是如何通过合成数据扩充预训练语料库,以促进语言模型的持续扩展。MAGACorpus的成功构建及其在多种模型规模(134M-13B)上的应用,对相关领域产生了深远影响,为解决数据稀缺问题提供了可靠途径。
当前挑战
MAGACorpus在构建过程中面临的主要挑战包括:1) 如何从现有语料库中系统性地合成多样、丰富的预训练数据;2) 如何在合成过程中保持数据质量;3) 如何在有限的计算资源下高效生成大规模语料库;4) 如何评估合成数据对模型性能的影响。此外,MAGACorpus在应用过程中还面临着如何与传统数据扩充方法(如数据重复和上采样)进行有效结合的挑战。
常用场景
经典使用场景
MAGACorpus 数据集被广泛应用于大规模语言模型(LLMs)的预训练阶段,以解决高质量预训练数据稀缺的问题。通过使用 MAGA 改写方法,该数据集能够系统地合成多样化的、上下文丰富的预训练数据,从而显著扩展训练数据集。这使得 MAGACorpus 成为构建和训练下一代大规模语言模型的宝贵资源。
解决学术问题
MAGACorpus 数据集解决了当前语言模型训练中存在的数据稀缺问题。随着模型参数规模的不断扩大,高质量的自然语言数据变得越来越难以获取。MAGACorpus 通过合成方法,有效地扩展了训练数据集,从而为语言模型的持续扩展提供了可靠途径。此外,MAGACorpus 还揭示了传统崩溃检测指标的局限性,并为未来合成数据优化提供了重要见解。
衍生相关工作
MAGACorpus 数据集的提出和成功应用,激发了更多关于数据合成和预训练语言模型研究的兴趣。相关研究包括探索更有效的数据合成方法、优化预训练语言模型的训练策略以及改进崩溃检测指标等。这些研究工作有助于推动语言模型技术的发展,并为解决数据稀缺问题提供新的思路和方法。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作