five

DataPajama

收藏
arXiv2025-02-27 更新2025-02-28 收录
下载链接:
http://arxiv.org/abs/2502.19363v1
下载链接
链接失效反馈
资源简介:
DataPajama数据集是由浙江大学和阿里巴巴集团共同创建的,包含447亿个Token的预训练语料库。该数据集通过DataMan工具进行了质量评分和领域类型的标注,旨在优化大型语言模型的预训练过程。数据集涵盖了14个质量标准,包括准确性、连贯性、语言一致性、语义密度等,并分为15个常见应用领域,如医学、金融、法律等。DataPajama的构建是为了帮助大型语言模型在特定领域内提高上下文学习性能。

The DataPajama dataset was co-created by Zhejiang University and Alibaba Group, and it is a pre-training corpus containing 44.7 billion Tokens. This dataset uses the DataMan tool to conduct quality scoring and domain type annotation, aiming to optimize the pre-training process of large language models (LLMs). The dataset covers 14 quality criteria including accuracy, coherence, linguistic consistency, semantic density and others, and is divided into 15 common application domains such as medicine, finance, law and others. The construction of DataPajama is intended to help large language models improve their in-context learning performance in specific domains.
提供机构:
浙江大学
创建时间:
2025-02-27
AI搜集汇总
数据集介绍
main_image_url
构建方式
DataPajama数据集的构建方式是通过使用DataMan数据管理器对447B token的预训练语料库进行质量评级和领域类型标注。DataMan是一个能够对文本进行质量评级和领域识别的数据管理器,它使用点式评分方法,通过训练一个模型来学习质量评级和领域识别。这个模型被用来对Simpajama语料库中的文档进行标注,从而创建了DataPajama数据集。
特点
DataPajama数据集的特点在于其包含了对447B token的预训练语料库的质量评级和领域类型标注。这些标注是基于14个质量评级标准(如准确性、连贯性、语言一致性、语义密度、知识新颖性、主题焦点、创造力、专业性、风格一致性、语法多样性、结构标准化、原创性、敏感性和整体得分)和15个常见应用领域(如医学、金融、法律等)。这些标注可以帮助研究人员更好地理解数据质量与大型语言模型性能之间的关系,并为数据选择和数据混合提供指导。
使用方法
使用DataPajama数据集的方法包括:1)使用DataMan模型对文本进行质量评级和领域识别;2)根据质量评级和领域类型对数据进行选择和混合;3)使用高质量、领域特定的数据对语言模型进行预训练。这些方法可以帮助研究人员提高数据质量,增强数据多样性,并优化大型语言模型的性能。
背景与挑战
背景概述
在自然语言处理(NLP)领域,大型语言模型(LLM)的性能提升受到数据规模法则的驱动,这使得预训练数据的选择变得尤为重要。然而,现有的方法依赖于有限的启发式和人类直觉,缺乏全面和清晰的指导原则。为了解决这个问题,研究人员受到了“逆向思维”的启发,即提示LLM自我识别哪些标准对其性能有益。由于LLM的预训练能力与困惑度(PPL)相关,他们从文本困惑度异常的原因中推导出14个质量标准,并引入了15个常见应用领域以支持领域混合。本文训练了一个数据管理器(DataMan)来从点评分中学习质量评分和领域识别,并使用它对447B标记的预训练语料库进行标注,包括14个质量评分和领域类型。实验验证了我们的方法,使用DataMan选择30B标记来训练一个1.3B参数的语言模型,在上下文学习(ICL)、困惑度和指令遵循能力方面显著优于最先进的基线。基于整体评分l=5的最佳性能模型超越了使用均匀采样训练的具有50%更多数据的模型。我们继续使用DataMan标注的高质量、特定领域的数据进行预训练,以提高特定领域的ICL性能,从而验证DataMan的领域混合能力。我们的发现强调了质量排名的重要性、质量标准的互补性质以及它们与困惑度的低相关性,并分析了PPL和ICL性能之间的错位。我们还彻底分析了我们的预训练数据集,检查了其组成、质量评分的分布和原始文档来源。
当前挑战
DataPajama数据集面临的主要挑战包括:1) 如何选择高质量的预训练数据,以实现LLM的最佳性能;2) 如何有效地构建和标注大规模的数据集,以便进行高质量的数据选择和领域混合;3) 如何确保DataMan模型在标注和领域识别方面的准确性和效率。这些挑战需要进一步的研究和改进,以提高LLM的性能和泛化能力。
常用场景
经典使用场景
DataPajama 数据集主要被用于训练大型语言模型,尤其是在预训练阶段。通过使用 DataMan 工具对数据进行质量评级和领域识别,研究者可以选择高质量且多样化的数据子集来训练语言模型,从而提高模型的性能,包括上下文学习、困惑度和指令遵循能力。
解决学术问题
DataPajama 数据集解决了现有数据选择方法中存在的问题,例如依赖于有限的启发式方法和人类直觉,缺乏全面和清晰的数据选择标准。DataMan 工具提供了全面的评分和领域识别,并配备了数据采样策略,从而优化了大型语言模型的预训练。此外,DataPajama 数据集的分析结果表明,质量排名、质量标准的互补性质以及它们与困惑度的低相关性,进一步验证了 DataMan 工具的有效性。
衍生相关工作
DataPajama 数据集的发布为大型语言模型的研究和应用提供了新的思路和方法。它促进了数据选择和混合技术的发展,并为领域特定的语言模型训练提供了支持。此外,DataMan 工具的提出也为其他数据集的构建和应用提供了参考和借鉴。
以上内容由AI搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作