DataPajama|自然语言处理数据集|预训练模型数据集

arXiv2025-02-27 更新2025-02-28 收录

自然语言处理

预训练模型

下载链接：

http://arxiv.org/abs/2502.19363v1

下载链接

链接失效反馈

资源简介：

DataPajama数据集是由浙江大学和阿里巴巴集团共同创建的，包含447亿个Token的预训练语料库。该数据集通过DataMan工具进行了质量评分和领域类型的标注，旨在优化大型语言模型的预训练过程。数据集涵盖了14个质量标准，包括准确性、连贯性、语言一致性、语义密度等，并分为15个常见应用领域，如医学、金融、法律等。DataPajama的构建是为了帮助大型语言模型在特定领域内提高上下文学习性能。

提供机构：

浙江大学

创建时间：

2025-02-27

AI搜集汇总

数据集介绍

构建方式

DataPajama数据集的构建方式是通过使用DataMan数据管理器对447B token的预训练语料库进行质量评级和领域类型标注。DataMan是一个能够对文本进行质量评级和领域识别的数据管理器，它使用点式评分方法，通过训练一个模型来学习质量评级和领域识别。这个模型被用来对Simpajama语料库中的文档进行标注，从而创建了DataPajama数据集。

特点

DataPajama数据集的特点在于其包含了对447B token的预训练语料库的质量评级和领域类型标注。这些标注是基于14个质量评级标准（如准确性、连贯性、语言一致性、语义密度、知识新颖性、主题焦点、创造力、专业性、风格一致性、语法多样性、结构标准化、原创性、敏感性和整体得分）和15个常见应用领域（如医学、金融、法律等）。这些标注可以帮助研究人员更好地理解数据质量与大型语言模型性能之间的关系，并为数据选择和数据混合提供指导。

使用方法

使用DataPajama数据集的方法包括：1）使用DataMan模型对文本进行质量评级和领域识别；2）根据质量评级和领域类型对数据进行选择和混合；3）使用高质量、领域特定的数据对语言模型进行预训练。这些方法可以帮助研究人员提高数据质量，增强数据多样性，并优化大型语言模型的性能。

背景与挑战

背景概述

在自然语言处理（NLP）领域，大型语言模型（LLM）的性能提升受到数据规模法则的驱动，这使得预训练数据的选择变得尤为重要。然而，现有的方法依赖于有限的启发式和人类直觉，缺乏全面和清晰的指导原则。为了解决这个问题，研究人员受到了“逆向思维”的启发，即提示LLM自我识别哪些标准对其性能有益。由于LLM的预训练能力与困惑度（PPL）相关，他们从文本困惑度异常的原因中推导出14个质量标准，并引入了15个常见应用领域以支持领域混合。本文训练了一个数据管理器（DataMan）来从点评分中学习质量评分和领域识别，并使用它对447B标记的预训练语料库进行标注，包括14个质量评分和领域类型。实验验证了我们的方法，使用DataMan选择30B标记来训练一个1.3B参数的语言模型，在上下文学习（ICL）、困惑度和指令遵循能力方面显著优于最先进的基线。基于整体评分l=5的最佳性能模型超越了使用均匀采样训练的具有50%更多数据的模型。我们继续使用DataMan标注的高质量、特定领域的数据进行预训练，以提高特定领域的ICL性能，从而验证DataMan的领域混合能力。我们的发现强调了质量排名的重要性、质量标准的互补性质以及它们与困惑度的低相关性，并分析了PPL和ICL性能之间的错位。我们还彻底分析了我们的预训练数据集，检查了其组成、质量评分的分布和原始文档来源。

当前挑战

DataPajama数据集面临的主要挑战包括：1) 如何选择高质量的预训练数据，以实现LLM的最佳性能；2) 如何有效地构建和标注大规模的数据集，以便进行高质量的数据选择和领域混合；3) 如何确保DataMan模型在标注和领域识别方面的准确性和效率。这些挑战需要进一步的研究和改进，以提高LLM的性能和泛化能力。

常用场景

经典使用场景

DataPajama 数据集主要被用于训练大型语言模型，尤其是在预训练阶段。通过使用 DataMan 工具对数据进行质量评级和领域识别，研究者可以选择高质量且多样化的数据子集来训练语言模型，从而提高模型的性能，包括上下文学习、困惑度和指令遵循能力。

解决学术问题

DataPajama 数据集解决了现有数据选择方法中存在的问题，例如依赖于有限的启发式方法和人类直觉，缺乏全面和清晰的数据选择标准。DataMan 工具提供了全面的评分和领域识别，并配备了数据采样策略，从而优化了大型语言模型的预训练。此外，DataPajama 数据集的分析结果表明，质量排名、质量标准的互补性质以及它们与困惑度的低相关性，进一步验证了 DataMan 工具的有效性。

衍生相关工作

DataPajama 数据集的发布为大型语言模型的研究和应用提供了新的思路和方法。它促进了数据选择和混合技术的发展，并为领域特定的语言模型训练提供了支持。此外，DataMan 工具的提出也为其他数据集的构建和应用提供了参考和借鉴。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国1km分辨率逐月降水量数据集（1901-2023）

该数据集为中国逐月降水量数据，空间分辨率为0.0083333°（约1km），时间为1901.1-2023.12。数据格式为NETCDF，即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集，通过Delta空间降尺度方案在中国降尺度生成的。并且，使用496个独立气象观测点数据进行验证，验证结果可信。本数据集包含的地理空间范围是全国主要陆地（包含港澳台地区），不含南海岛礁等区域。为了便于存储，数据均为int16型存于nc文件中，降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理，Matlab发布了读入与存储nc文件的函数，读取函数为ncread，切换到nc文件存储文件夹，语句表达为：ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent])，其中XXX.nc为文件名，为字符串需要’’；var是从XXX.nc中读取的变量名，为字符串需要’’；i、j、t分别为读取数据的起始行、列、时间，leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样，研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令，可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性，12位男性)，以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情，歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常，强烈) 下产生的，另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位，48kHz .wav)，音频-视频 (720p H.264，AAC 48kHz，.mp4) 和仅视频 (无声音)。注意，Actor_18没有歌曲文件。

OpenDataLab 收录

Figshare

Figshare是一个在线数据共享平台，允许研究人员上传和共享各种类型的研究成果，包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

风电预测数据集

全球能源预测大赛(Global Energy Forecasting Competition ) 2012 - 风力发电赛道所用数据集.

AI_Studio 收录