mlfoundations/dclm-baseline-1.0

Name: mlfoundations/dclm-baseline-1.0
Creator: mlfoundations
Published: 2024-07-22 15:27:52
License: 暂无描述

Hugging Face2024-07-22 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/mlfoundations/dclm-baseline-1.0

下载链接

链接失效反馈

官方服务：

资源简介：

DCLM-baseline是一个包含4万亿个标记和30亿个文档的预训练数据集，旨在作为DCLM基准的研究基线。该数据集展示了数据整理在训练高性能语言模型中的重要性。数据集是从Common Crawl数据中通过一系列清洗、过滤和去重步骤创建的，并且是DCLM-Pool的一个子集。数据集主要用于研究目的，不适用于训练生产就绪的模型或特定领域（如代码和数学）的任务。

提供机构：

mlfoundations

原始信息汇总

DCLM-baseline 数据集概述

数据集描述

由：DCLM 团队
语言：英语
许可证：CC-by-4.0

数据集来源

存储库：https://datacomp.ai/dclm
论文：https://arxiv.org/abs/2406.11794
构建代码：https://github.com/mlfoundations/dclm

数据集用途

直接用途：DCLM-Baseline 旨在作为 DCLM 基准的研究基线，展示数据筛选在训练高性能语言模型中的重要性。
超出范围的用途：DCLM-Baseline 不适用于训练生产就绪模型或特定领域（如代码和数学）。它可能在这些任务上不如特定领域的数据集表现好。因此，该数据集仅用于研究目的。

数据集创建

创建理由：DCLM-Baseline 旨在展示 DCLM 测试床在开发高质量语言模型训练集方面的有效性。它作为数据筛选策略的证明，设计为基准研究的基础。
源数据：
- 数据收集和处理：DCLM-Baseline 通过对原始 Common Crawl 数据（DCLM-Pool）进行一系列清洗、过滤和去重步骤创建。关键步骤包括：
  1. 启发式清洗和过滤（RefinedWeb 的再现）
  2. 使用 Bloom 过滤器去重
  3. 使用在指令格式数据（OpenHermes 2.5 和 r/ExplainLikeImFive）上训练的 fastText 分类器进行基于模型的过滤
- 源数据生产者：源数据来自 Common Crawl，这是一个网页爬取数据存储库。

偏见、风险和限制

数据集可能包含 Common Crawl 数据中的偏见。在代码和数学任务上的表现有限，相比语言理解任务。DCLM-Baseline 仅设计用于研究目的。

引用

bibtex @misc{li2024datacomplm, title={DataComp-LM: In search of the next generation of training sets for language models}, author={Jeffrey Li and others}, year={2024}, eprint={2406.11794}, archivePrefix={arXiv}, primaryClass={cs.LG} }

搜集汇总

数据集介绍

构建方式

DCLM-Baseline数据集的构建过程体现了对大规模网络爬取数据的高效处理与优化。该数据集源自Common Crawl的原始数据，经过一系列严格的清洗、过滤和去重步骤。具体包括启发式清洗与过滤、基于Bloom滤波器的去重处理，以及利用fastText分类器进行模型驱动的过滤。这些步骤确保了数据集的高质量和适用性，使其成为语言模型训练的理想选择。

特点

DCLM-Baseline数据集以其庞大的规模和高质量的数据处理而著称，包含4万亿个标记和30亿个文档。该数据集特别强调英语语言的处理，通过先进的过滤和去重技术，确保了数据的多样性和代表性。此外，数据集的结构设计考虑了语言模型的训练需求，提供了丰富的元数据和文本内容，支持广泛的研究和应用。

使用方法

DCLM-Baseline数据集主要用于语言模型的研究和基准测试，特别是在探索数据整理对模型性能影响方面。研究人员可以利用该数据集进行模型训练和性能评估，以验证不同数据处理策略的有效性。虽然数据集不适用于生产环境或特定领域（如代码和数学）的模型训练，但其在语言理解任务上的表现使其成为研究领域的宝贵资源。

背景与挑战

背景概述

DCLM-baseline数据集由DCLM团队于2024年创建，旨在为语言模型训练提供高质量的研究基准。该数据集基于Common Crawl的原始数据，经过一系列清洗、过滤和去重处理，最终生成了包含4万亿标记和30亿文档的预训练数据集。DCLM-baseline的核心研究问题在于探索数据筛选策略对语言模型性能的影响，特别是在CORE、MMLU和EXTENDED等基准测试中的表现。该数据集的发布为语言模型训练数据的优化提供了新的研究方向，推动了数据筛选技术在自然语言处理领域的应用。

当前挑战

DCLM-baseline数据集在构建过程中面临多重挑战。首先，数据清洗和过滤的复杂性极高，需要设计高效的启发式算法和模型驱动的筛选机制，以确保数据质量。其次，去重处理涉及大规模数据的存储与计算，如何在保证准确性的同时提升效率是一个技术难点。此外，数据集可能继承了Common Crawl中的偏见，这对模型的公平性和泛化能力提出了挑战。最后，尽管DCLM-baseline在语言理解任务上表现优异，但在代码和数学等特定领域的性能仍有待提升，这限制了其在实际应用中的广泛使用。

常用场景

经典使用场景

DCLM-baseline数据集在自然语言处理领域中被广泛用于语言模型的预训练和基准测试。其庞大的数据量和高质量的数据筛选机制使其成为评估和比较不同语言模型性能的理想选择。研究人员可以通过该数据集验证模型在多种语言任务中的表现，如文本生成、语言理解和信息检索等。

解决学术问题

DCLM-baseline数据集解决了语言模型训练中数据质量和规模的关键问题。通过其精心设计的数据筛选和去重机制，该数据集显著提升了模型在CORE、MMLU和EXTENDED等基准测试中的表现。这不仅为语言模型的研究提供了可靠的数据支持，还为数据筛选策略的优化提供了实证依据。

衍生相关工作

DCLM-baseline数据集催生了一系列相关研究，特别是在数据筛选和模型训练策略方面。例如，基于该数据集的研究成果已被用于改进其他开放数据集的质量，如FineWeb和OLMo。此外，该数据集还为数据压缩和高效训练算法的研究提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集