allenai/dolma|自然语言处理数据集|机器学习数据集

hugging_face2024-04-17 更新2024-03-04 收录

自然语言处理

机器学习

下载链接：

https://hf-mirror.com/datasets/allenai/dolma

下载链接

链接失效反馈

资源简介：

Dolma是一个包含3万亿个token的数据集，涵盖了网页内容、学术出版物、代码、书籍和百科全书材料等多种来源。数据集的最新版本是v1.7，用于训练OLMo 7B-v1.7模型。该数据集通过Dolma管道进行提取，并进行了新的质量过滤和去重步骤。

提供机构：

allenai

原始信息汇总

数据集概述

数据集名称

名称: Dolma

数据集描述

描述: Dolma是一个包含3万亿tokens的数据集，内容来源于多样化的网络内容、学术出版物、代码、书籍和百科全书材料。

数据集版本

当前版本: 6个版本
- v1_7: 默认版本，2024-04-15发布，4.5 TB，用于训练OLMo-7B-v1.7模型。新增来源，增强质量过滤和模糊去重。
- v1_6: 2024-01-31发布，5.4 TB，对v1.5的更新，进行文档去重。
- v1_6-sample: 2024-01-31发布，16.4 GB，约100亿tokens的小样本，用于数据探索。
- v1_5: 2023-10-31发布，6.4 TB，用于训练OLMo-1B模型，约3万亿tokens。
- v1_5-sample: 2023-10-31发布，2.9 TB，约1.9万亿tokens的样本，用于训练OLMo-7B模型。
- v1: 2023-08-18发布，6.0 TB，Dolma的首个版本。

数据集来源和处理

来源: 包括Common Crawl、Refined Web、StarCoder、C4、Reddit、Semantic Scholar、arXiv、StackExchange、Flan、CC News、OpenWebMath、Algebraic Stack、Project Gutenberg、MegaWika、Wikipedia & Wikibooks等。
处理: 使用Dolma管道进行提取和过滤，包括新的质量过滤和去重步骤。

数据集统计

v1.7统计: 总计2532.0百万文档，2308.5亿OLMo tokens，实际用于训练的tokens为1.715万亿。
v1.6统计: 总计4367百万文档，3059亿Llama tokens。

许可证

许可证: ODC-BY

下载信息

下载方式: 建议使用wget并行模式下载，通过克隆仓库并使用url目录中的文件。

引用信息

Bibtex引用: 若使用此数据集或工具，请引用相关文献。

AI搜集汇总

数据集介绍

构建方式

Dolma数据集的构建，是从互联网的多样化内容中收集了3万亿个标记，涵盖了网页、学术论文、代码、书籍以及百科全书材料等。通过使用特定的管道进行提取，并引入了新的质量过滤和模糊去重步骤，确保了数据集的高质量和多样性。

特点

Dolma数据集的特点在于其庞大的规模和内容的多样性。它不仅包含了互联网上的常见网页内容，还整合了学术出版物、编程代码和书籍等珍贵资源。此外，数据集采用了ODC-BY许可，保证了数据的开放性和可访问性，同时也注重了个人隐私保护，提供了删除个人数据的形式。

使用方法

使用Dolma数据集，用户可以通过克隆其GitHub仓库并使用其中的文件来进行下载。通过wget命令的并行下载模式可以加速下载过程。下载后，可以利用HuggingFace的datasets库来加载和操作数据集，从而方便地进行语言模型的预训练研究。

背景与挑战

背景概述

Dolma数据集，由Allen Institute for AI构建，是一个包含3万亿个标记的语料库，汇集了来自网络内容、学术出版物、代码、书籍和百科全书材料等多种来源的丰富多样性数据。该数据集的创建旨在为语言模型预训练研究提供开放的大规模语料资源。自2023年8月首次发布以来，Dolma经历了多次更新，不断完善其数据质量和多样性。该数据集的研究背景根植于自然语言处理领域，特别是语言模型预训练的发展需求，对相关领域产生了重要影响。

当前挑战

在构建Dolma数据集的过程中，研究人员面临了多方面的挑战。首先，确保数据来源的多样性和质量是一个关键挑战，涉及对海量数据的清洗、过滤和去重。其次，数据集的规模巨大，给存储、处理和分发带来了技术上的挑战。此外，数据集的合法使用和隐私保护也是构建过程中必须考虑的重要因素。在研究领域问题上，Dolma数据集旨在提高语言模型的泛化能力，但如何准确评估和优化模型性能仍然是一个持续的挑战。

常用场景

经典使用场景

在自然语言处理领域，Dolma数据集的3万亿个标记覆盖了多样化的网络内容、学术出版物、代码、书籍和百科全书材料，成为大规模语言模型预训练的基石。其经典的使用场景主要集中于训练和评估大规模语言模型，如OLMo系列模型，通过对该数据集的学习，模型能够掌握语言的结构和用法，实现高质量的文本生成。

衍生相关工作

基于Dolma数据集，研究者们开展了一系列相关工作，包括开发新的语言模型架构、探索模型在不同任务中的表现，以及研究数据集对模型偏见和伦理问题的影响。这些工作不仅推动了自然语言处理领域的发展，也为相关政策的制定提供了科学依据。

数据集最近研究

最新研究方向

Dolma数据集作为包含30万亿个token的多样化网络内容集合，为自然语言处理领域的研究提供了丰富的资源。近期，该数据集在语言模型预训练研究中占据重要地位，特别是在AllenAI的OLMo模型系列中得到应用。最新研究方向集中在如何通过高质量的数据筛选和去重技术，提高模型训练的效率和效果。例如，Dolma v1.7版本的发布，不仅引入了新的数据源，还采用了更精细的质量过滤和模糊去重步骤，这对于训练如OLMo 7B-v1.7等先进模型至关重要。此外，Dolma数据集的开放使用ODC-BY协议，为学术界的开放合作提供了良好的基础，推动了语言模型研究的开放共享趋势。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国1km分辨率逐月平均气温数据集（1901-2024）

该数据为中国逐月平均温度数据，空间分辨率为0.0083333°（约1km），时间为1901.1-2024.12。数据格式为NETCDF，即.nc格式。数据单位为0.1 ℃。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集，通过Delta空间降尺度方案在中国降尺度生成的。并且，使用496个独立气象观测点数据进行验证，验证结果可信。本数据集包含的地理空间范围是全国主要陆地（包含港澳台地区），不含南海岛礁等区域。nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理，Matlab发布了读入与存储nc文件的函数，读取函数为ncread，切换到nc文件存储文件夹，语句表达为：ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent])，其中XXX.nc为文件名，为字符串需要’’；var是从XXX.nc中读取的变量名，为字符串需要’’；i、j、t分别为读取数据的起始行、列、时间，leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样，研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令，可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心收录

DermNet

DermNet是一个包含皮肤病图像的数据集，涵盖了多种皮肤病类型，如痤疮、湿疹、牛皮癣等。该数据集主要用于皮肤病诊断和研究。

www.dermnetnz.org 收录

dacl1k

dacl1k是一个专注于实际桥梁损伤检测的多标签分类数据集，由联邦国防军大学创建。该数据集包含1,474张图像，这些图像来源于实际的建筑检查，涉及多种损伤类型，如裂缝、风化、剥落、暴露钢筋和锈蚀等。dacl1k数据集的创建过程涉及专业工程师的标注，确保了数据的高质量和准确性。该数据集主要用于评估和改进桥梁损伤识别模型，特别是在实际应用场景中的性能。

arXiv 收录

HotpotQA

HotpotQA 是收集在英语维基百科上的问答数据集，包含大约 113K 众包问题，这些问题的构建需要两篇维基百科文章的介绍段落才能回答。数据集中的每个问题都带有两个黄金段落，以及这些段落中的句子列表，众包工作人员认为这些句子是回答问题所必需的支持事实。 HotpotQA 提供了多种推理策略，包括涉及问题中缺失实体的问题、交叉问题（什么满足属性 A 和属性 B？）和比较问题，其中两个实体通过一个共同属性进行比较等。在少文档干扰设置中，QA 模型有 10 个段落，保证能找到黄金段落；在开放域全维基设置中，模型只给出问题和整个维基百科。模型根据其答案准确性和可解释性进行评估，其中前者被测量为具有完全匹配 (EM) 和 unigram F1 的预测答案和黄金答案之间的重叠，后者关注预测的支持事实句子与人类注释的匹配程度（Supporting Fact EM/F1)。该数据集还报告了一个联合指标，它鼓励系统同时在两项任务上表现良好。来源：通过迭代查询生成回答复杂的开放域问题

OpenDataLab 收录

NIST Thermochemical Database

NIST Thermochemical Database（NIST热化学数据库）是一个包含大量热化学数据的数据集，涵盖了各种化学物质的热力学性质，如焓、熵、自由能等。该数据库由美国国家标准与技术研究院（NIST）维护，旨在为科学研究和工业应用提供准确的热化学数据。

webbook.nist.gov 收录