meg/dolma-v1_6-sample

Hugging Face2024-05-31 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/meg/dolma-v1_6-sample

下载链接

链接失效反馈

官方服务：

资源简介：

Dolma是一个包含3万亿个标记的数据集，涵盖了网页内容、学术出版物、代码、书籍和百科全书材料等多种来源。该数据集用于语言模型预训练研究，并提供了多个版本，每个版本都有不同的发布时间、大小和用途。数据集的最新版本v1.7用于训练OLMo 7B-v1.7模型，并引入了新的数据源、质量过滤和去重步骤。

Dolma is a 3-trillion-token dataset covering multiple sources including web content, academic publications, code, books, and encyclopedia materials. It is employed for language model pre-training research, with multiple versions available, each featuring unique release timelines, sizes, and use cases. The latest version, v1.7, is utilized to train the OLMo 7B-v1.7 model, and introduces new data sources, quality filtering processes, and deduplication procedures.

提供机构：

meg

原始信息汇总

数据集概述：Dolma

基本信息

许可证: ODC-BY
任务类别: 文本生成
语言: 英语
标签: 语言建模, 休闲语言模型, LLM
美观名称: Dolma
大小类别: 大于1TB

数据集描述

Dolma是一个包含3万亿tokens的数据集，内容来源于多样化的网络内容、学术出版物、代码、书籍和百科全书材料。

版本信息

版本	默认	发布日期	大小(gzip)	描述
`v1_7`	✅	2024-04-15	4.5 TB	用于训练OLMo-7B-v1.7。新增来源，更多质量过滤，模糊去重。
`v1_6`		2024-01-31	5.4 TB	v1.5的更新，对文档进行去重，包括token过少或重复n-gram过多的文档。
`v1_6-sample`		2024-01-31	16.4 GB	Dolma的小样本，约100亿tokens，适用于数据探索。
`v1_5`		2023-10-31	6.4 TB	用于训练OLMo-1B。约3万亿tokens。
`v1_5-sample`		2023-10-31	2.9 TB	用于训练OLMo-7B的样本，约1.9万亿tokens。
`v1`		2023-08-18	6.0 TB	Dolma的第一个版本。

数据集来源统计（v1.7）

来源	文档数(百万)	OLMo tokens(十亿)	处理
Dolmas CC	875.2	1,195.5	使用Dolma管道提取；新增质量过滤和去重步骤。
Refined Web	664.0	456.4	使用Dolma管道过滤；新增质量过滤和去重步骤。
StarCoder	206.6	263.8	无进一步处理。
C4	249.9	138.4	使用Dolma管道过滤；新增质量过滤和去重步骤。
Reddit	377.4	79.9	使用Dolma管道提取；新增质量过滤和去重步骤。
Semantic Scholar	38.8	57.2	同Dolma v1.6
arXiv	1.5	28.0	无进一步处理。
StackExchange	29.3	19.6	无进一步处理。
Flan	52.1	16.5	复制Flan后，采样以平衡不同Flan子集。重新格式化以使用新行分隔指令和演示。
CC News	22.0	14.3	使用Dolma管道提取；新增质量过滤和去重步骤。
OpenWebMath	2.9	12.6	训练子集；无进一步处理。
Algebraic Stack	2.8	12.6	训练子集；无进一步处理。
Project Gutenberg	0.0556	5.3	同Dolma v1.6
MegaWika	3.2	4.6	使用完整的Dolma管道进行筛选。
Wikipedia & Wikibooks	6.2	3.7	同Dolma v1.6
总计	2532.0	2,308.5	1,715.1

(用于训练OLMo 7B-v1.7的数据集子集。token计数基于完整数据集，考虑采样比例后，实际用于训练的token数为1.715万亿。)

搜集汇总

数据集介绍

构建方式

Dolma数据集由艾伦人工智能研究所构建，汇聚了来自网络内容、学术出版物、代码、书籍和百科全书材料等多元来源的3万亿词元。其构建过程融合了精细的数据筛选与去重流程，例如对Common Crawl、Refined Web等来源进行质量过滤和模糊去重，并整合了StarCoder、arXiv、StackExchange等高质量语料。数据集经过多版本迭代，如v1.7版本新增了Flan、CC News等来源，并通过Dolma管道进行标准化处理，最终以gzip压缩格式存储，确保数据的可访问性与实用性。

特点

该数据集以规模宏大、来源多样性和高质量著称，涵盖超过14种不同领域的数据源，包括网络页面、学术论文、代码仓库、社交媒体讨论和百科全书条目。其特点在于精细的版本控制与统计透明度，每个版本均提供详细的源数据占比、文档数量及词元计数。例如v1.7版本总词元数达2.3万亿，且通过采样比例调整实现训练数据的平衡。此外，数据集采用ODC-BY许可协议，支持开放研究，并附有详尽的文档说明处理流程与数据截止日期。

使用方法

用户可通过HuggingFace平台便捷访问Dolma数据集，推荐使用wget并行下载以提升效率。具体步骤包括克隆仓库、创建数据目录，并利用提供的URL列表执行批量下载。加载时，借助datasets库的load_dataset函数即可将数据导入为训练集。数据集提供多个版本（如v1_6-sample用于探索），用户可根据需求选择。此外，官方GitHub页面提供了复现构建流程的完整工具链，便于研究者深入理解数据生成机制或进行定制化处理。

背景与挑战

背景概述

Dolma数据集由艾伦人工智能研究所（AI2）于2023年首次发布，汇集了来自网络内容、学术出版物、代码、书籍和百科全书等多元来源的约3万亿个令牌，旨在为大规模语言模型预训练研究提供开放且高质量的基础语料。该数据集的核心研究问题在于如何系统性地构建一个覆盖广泛、经过严格质量过滤和去重处理的文本集合，以支持可复现的语言模型训练实验。Dolma的发布对开放科学领域产生了深远影响，其配套的开源工具和详细数据文档为研究者提供了透明化的数据构建流程，促进了语言模型研究的可复现性与公平对比。

当前挑战

Dolma所解决的领域问题是大规模语言模型预训练语料的构建与质量控制。其面临的挑战包括：1）数据来源的多样性与一致性难以平衡，需从Common Crawl、学术论文、代码仓库等异构源中提取并统一处理；2）质量过滤与去重技术需应对海量数据中的噪声、重复内容和低质量文本，例如v1.6版本专门去除了令牌过少或n-gram重复过多的文档；3）构建过程中需处理个人隐私信息（PII）的移除问题，并应对不同版本间的许可协议变更（如从原有许可转为ODC-BY）；4）数据规模庞大（超过5TB），对存储、传输和高效并行下载提出了工程性挑战。

常用场景

经典使用场景

Dolma数据集以其宏大的规模与多元的语料构成，成为语言模型预训练研究中的标杆性资源。其整合了来自网页内容、学术出版物、代码、书籍与百科资料等多样化来源，总计包含约3万亿token，为训练大规模语言模型（LLMs）提供了坚实基础。研究者常利用Dolma进行因果语言建模任务，通过其丰富的语料分布，深入探索模型在广泛知识领域中的语言理解与生成能力，成为评估预训练策略与模型架构效果的经典基准。

解决学术问题

该数据集有效回应了开放科学背景下大规模、高质量预训练语料匮乏的学术困境。通过系统性地收集、清洗与去重来自多个公开来源的数据，Dolma解决了以往数据集在规模、多样性与可复现性上的局限性。其详尽的版本控制与处理流程记录，使得研究者能够追溯数据来源、理解预处理决策对模型性能的影响，从而推动了对语言模型预训练中数据质量、规模与组成之间复杂关系的深入理解。

衍生相关工作

围绕Dolma数据集，衍生了一系列具有影响力的学术工作。其配套发布的开放源码工具链（如Dolma curation pipeline）为数据清洗、质量过滤与去重提供了标准化框架，被后续多个数据集构建项目所采纳。基于Dolma训练的OLMo系列模型，不仅验证了该数据集的有效性，还推动了关于模型规模、训练数据组成与下游任务性能之间关系的系统性研究。此外，该数据集的相关论文详细阐述了数据治理与伦理考量，为负责任的数据集开发树立了范例。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集