dclm-baseline-1.0

Hugging Face2024-06-27 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/mlfoundations/dclm-baseline-1.0

下载链接

链接失效反馈

官方服务：

资源简介：

DCLM-baseline是一个用于语言模型基准测试的4T令牌预训练数据集，由DCLM团队精心策划，主要语言为英语，遵循CC-by-4.0许可证。该数据集旨在作为DCLM基准的研究基线，展示数据策展在训练高性能语言模型中的重要性。它不用于训练生产就绪模型或特定领域如代码和数学，仅限于研究使用。数据集是从Common Crawl的240万亿令牌语料库中通过一系列清洗、过滤和去重步骤创建的，包括启发式清洗、布隆过滤器去重和基于fastText分类器的模型过滤。

DCLM-baseline is a 4T-token pre-training dataset for language model benchmarking, meticulously curated by the DCLM team, with English as its primary language, and distributed under the CC-by-4.0 license. This dataset is intended to serve as the research baseline for the DCLM benchmark, highlighting the importance of data curation in training high-performance language models. It is not designed for training production-ready models or domain-specific applications such as code and mathematics, and is restricted to research use only. The dataset is constructed from the 240-trillion-token corpus of Common Crawl through a series of cleaning, filtering, and deduplication steps, including heuristic cleaning, Bloom filter-based deduplication, and model filtering based on fastText classifiers.

创建时间：

2024-06-18

原始信息汇总

数据集概述

数据集描述

名称: DCLM-baseline
大小: 4T token / 3B document
语言: 英语
许可证: CC-by-4.0
创建者: The DCLM Team

数据集特征

bff_contained_ngram_count_before_dedupe: 数据类型为 int64
language_id_whole_page_fasttext: 包含结构化数据，其中 en 的数据类型为 float64
metadata: 包含多个结构化字段，数据类型包括 string 和 timestamp[s]
previous_word_count: 数据类型为 int64
text: 数据类型为 string
url: 数据类型为 string
warcinfo: 数据类型为 string
fasttext_openhermes_reddit_eli5_vs_rw_v2_bigram_200k_train_prob: 数据类型为 float64

数据集来源

仓库: https://datacomp.ai/dclm
论文: https://arxiv.org/abs/2406.11794
构建代码: https://github.com/mlfoundations/dclm

数据集用途

直接用途: 作为DCLM基准的研究基线，展示数据筛选在训练高性能语言模型中的重要性。
非适用范围: 不适用于训练生产就绪模型或特定领域（如代码和数学）的模型。

数据集创建

创建理由: 展示DCLM测试床在开发高质量语言模型训练集中的有效性。
数据来源: 来自Common Crawl的DCLM-Pool，经过清洗、过滤和去重处理。
数据处理: 包括启发式清洗、Bloom过滤器去重和基于fastText分类器的模型过滤。

偏见、风险和限制

潜在偏见: 可能包含Common Crawl数据中的偏见。
性能限制: 在代码和数学任务上的表现有限。
使用限制: 仅用于研究目的。

引用

bibtex @misc{li2024datacomplm, title={DataComp-LM: In search of the next generation of training sets for language models}, author={Jeffrey Li and others}, year={2024}, eprint={2406.11794}, archivePrefix={arXiv}, primaryClass={cs.LG} }

搜集汇总

数据集介绍

构建方式

DCLM-baseline数据集的构建基于Common Crawl的原始数据，经过一系列清洗、过滤和去重步骤。具体包括启发式清洗与过滤、使用布隆过滤器进行去重，以及基于fastText分类器的模型过滤。这些步骤旨在确保数据的高质量和多样性，使其适用于语言模型的预训练。

特点

DCLM-baseline数据集包含4万亿个标记和30亿个文档，具有强大的语言模型基准性能。数据集以纯文本格式呈现，涵盖了丰富的语言信息，并通过模型过滤策略提升了数据的质量。其特点在于通过严格的去重和过滤机制，减少了噪声数据的影响，同时保留了多样化的语言表达。

使用方法

DCLM-baseline数据集主要用于语言模型的研究基准，展示了数据筛选对模型性能的重要性。用户可通过HuggingFace平台直接访问数据集，并将其用于语言模型的预训练和评估。需要注意的是，该数据集不适用于生产级模型的训练或特定领域（如代码和数学）任务，仅限于研究用途。

背景与挑战

背景概述

DCLM-baseline数据集由DCLM团队于2024年创建，旨在为语言模型训练提供高质量的研究基准。该数据集基于Common Crawl的原始数据，经过一系列清洗、过滤和去重处理，最终生成了包含4万亿标记和30亿文档的预训练数据集。DCLM-baseline的核心研究问题在于探索数据筛选策略对语言模型性能的影响，并通过实验验证其在多个基准测试中的表现。该数据集在语言模型领域具有重要影响力，尤其是在开放数据集与封闭数据集的对比研究中，为研究者提供了宝贵的参考。

当前挑战

DCLM-baseline数据集在构建过程中面临多重挑战。首先，数据清洗和过滤的复杂性极高，需要设计高效的启发式方法以去除低质量内容。其次，去重过程依赖于布隆过滤器等技术，这对计算资源和算法精度提出了较高要求。此外，基于模型的过滤步骤依赖于fastText分类器，其训练数据的质量和多样性直接影响最终数据集的表现。在应用层面，DCLM-baseline虽然在语言理解任务中表现优异，但在代码和数学等特定领域的性能有限，这限制了其通用性。同时，数据集可能继承了Common Crawl中的潜在偏见，需进一步研究和处理。

常用场景

经典使用场景

DCLM-baseline数据集在自然语言处理领域中被广泛用于语言模型的预训练和基准测试。该数据集通过精心筛选和去重处理，提供了高质量的文本数据，特别适用于研究语言模型在不同任务上的表现。其经典使用场景包括在CORE、MMLU和EXTENDED等基准测试中评估模型的性能，帮助研究者理解数据质量对模型表现的影响。

衍生相关工作

DCLM-baseline数据集衍生了一系列相关研究，特别是在数据筛选和去重策略的优化方面。例如，基于该数据集的研究成果推动了更高效的数据预处理方法的发展，并启发了其他类似数据集的构建。此外，该数据集还为语言模型的基准测试提供了新的标准，促进了自然语言处理领域的进步。

数据集最近研究