FineWeb

Name: FineWeb
Creator: Hugging Face
Published: 2024-06-25 21:50:56
License: 暂无描述

arXiv2024-06-25 更新2024-06-27 收录

下载链接：

https://huggingface.co/datasets/HuggingFaceFW/fineweb

下载链接

链接失效反馈

官方服务：

资源简介：

FineWeb是由Hugging Face开发的大规模预训练数据集，包含15万亿个Token，源自96个Common Crawl快照。该数据集通过精心设计的过滤和去重策略，旨在提升大型语言模型（LLM）的性能。FineWeb-Edu是FineWeb的一个子集，包含1.3万亿个教育相关Token，特别适用于知识密集和推理密集型任务。数据集的创建过程涉及深入的数据去重和过滤策略研究，以及对不同数据处理方法的实验验证。FineWeb及其子集FineWeb-Edu的应用领域广泛，主要用于训练高性能的LLM，解决自然语言处理中的复杂问题。

FineWeb is a large-scale pre-training dataset developed by Hugging Face, comprising 15 trillion tokens sourced from 96 Common Crawl snapshots. This dataset leverages meticulously crafted filtering and deduplication strategies to improve the performance of Large Language Models (LLMs). FineWeb-Edu, a subset of FineWeb, contains 1.3 trillion education-related tokens and is particularly well-suited for knowledge-intensive and reasoning-intensive tasks. The development of this dataset entailed in-depth research on data deduplication and filtering strategies, alongside experimental validation of diverse data processing approaches. FineWeb and its subset FineWeb-Edu have broad application scenarios, primarily being used to train high-performance LLMs to tackle complex problems in natural language processing.

提供机构：

Hugging Face

创建时间：

2024-06-25

原始信息汇总

数据集概述

许可证

数据集许可证：ODC-By

任务类别

文本生成

语言

英语

数据集名称

名称：FineWeb

数据集大小

大小类别：n>1T

配置

默认配置
- 分割：训练
- 路径：data//
样本配置
- sample-10BT
  - 分割：训练
  - 路径：sample/10BT/*
- sample-100BT
  - 分割：训练
  - 路径：sample/100BT/*
- sample-350BT
  - 分割：训练
  - 路径：sample/350BT/*
特定爬取配置
- CC-MAIN-2024-18
  - 分割：训练
  - 路径：data/CC-MAIN-2024-18/*
- CC-MAIN-2024-10
  - 分割：训练
  - 路径：data/CC-MAIN-2024-10/*
- CC-MAIN-2023-50
  - 分割：训练
  - 路径：data/CC-MAIN-2023-50/*
- CC-MAIN-2023-40
  - 分割：训练
  - 路径：data/CC-MAIN-2023-40/*
- CC-MAIN-2023-23
  - 分割：训练
  - 路径：data/CC-MAIN-2023-23/*
- CC-MAIN-2023-14
  - 分割：训练
  - 路径：data/CC-MAIN-2023-14/*
- CC-MAIN-2023-06
  - 分割：训练
  - 路径：data/CC-MAIN-2023-06/*
- CC-MAIN-2022-49
  - 分割：训练
  - 路径：data/CC-MAIN-2022-49/*
- CC-MAIN-2022-40
  - 分割：训练
  - 路径：data/CC-MAIN-2022-40/*
- CC-MAIN-2022-33
  - 分割：训练
  - 路径：data/CC-MAIN-2022-33/*
- CC-MAIN-2022-27
  - 分割：训练
  - 路径：data/CC-MAIN-2022-27/*
- CC-MAIN-2022-21
  - 分割：训练
  - 路径：data/CC-MAIN-2022-21/*
- CC-MAIN-2022-05
  - 分割：训练
  - 路径：data/CC-MAIN-2022-05/*
- CC-MAIN-2021-49
  - 分割：训练
  - 路径：data/CC-MAIN-2021-49/*
- CC-MAIN-2021-43
  - 分割：训练
  - 路径：data/CC-MAIN-2021-43/*
- CC-MAIN-2021-39
  - 分割：训练
  - 路径：data/CC-MAIN-2021-39/*
- CC-MAIN-2021-31
  - 分割：训练
  - 路径：data/CC-MAIN-2021-31/*
- CC-MAIN-2021-25
  - 分割：训练
  - 路径：data/CC-MAIN-2021-25/*
- CC-MAIN-2021-21
  - 分割：训练
  - 路径：data/CC-MAIN-2021-21/*
- CC-MAIN-2021-17
  - 分割：训练
  - 路径：data/CC-MAIN-2021-17/*
- CC-MAIN-2021-10
  - 分割：训练
  - 路径：data/CC-MAIN-2021-10/*
- CC-MAIN-2021-04
  - 分割：训练
  - 路径：data/CC-MAIN-2021-04/*
- CC-MAIN-2020-50
  - 分割：训练
  - 路径：data/CC-MAIN-2020-50/*
- CC-MAIN-2020-45
  - 分割：训练
  - 路径：data/CC-MAIN-2020-45/*
- CC-MAIN-2020-40
  - 分割：训练
  - 路径：data/CC-MAIN-2020-40/*
- CC-MAIN-2020-34
  - 分割：训练
  - 路径：data/CC-MAIN-2020-34/*
- CC-MAIN-2020-29
  - 分割：训练
  - 路径：data/CC-MAIN-2020-29/*
- CC-MAIN-2020-24
  - 分割：训练
  - 路径：data/CC-MAIN-2020-24/*
- CC-MAIN-2020-16
  - 分割：训练
  - 路径：data/CC-MAIN-2020-16/*
- CC-MAIN-2020-10
  - 分割：训练
  - 路径：data/CC-MAIN-2020-10/*
- CC-MAIN-2020-05
  - 分割：训练
  - 路径：data/CC-MAIN-2020-05/*
- CC-MAIN-2019-51
  - 分割：训练
  - 路径：data/CC-MAIN-2019-51/*
- CC-MAIN-2019-47
  - 分割：训练
  - 路径：data/CC-MAIN-2019-47/*
- CC-MAIN-2019-43
  - 分割：训练
  - 路径：data/CC-MAIN-2019-43/*
- CC-MAIN-2019-39
  - 分割：训练
  - 路径：data/CC-MAIN-2019-39/*
- CC-MAIN-2019-35
  - 分割：训练
  - 路径：data/CC-MAIN-2019-35/*
- CC-MAIN-2019-30
  - 分割：训练
  - 路径：data/CC-MAIN-2019-30/*
- CC-MAIN-2019-26
  - 分割：训练
  - 路径：data/CC-MAIN-2019-26/*
- CC-MAIN-2019-22
  - 分割：训练
  - 路径：data/CC-MAIN-2019-22/*
- CC-MAIN-2019-18
  - 分割：训练
  - 路径：data/CC-MAIN-2019-18/*
- CC-MAIN-2019-13
  - 分割：训练
  - 路径：data/CC-MAIN-2019-13/*
- CC-MAIN-2019-09
  - 分割：训练
  - 路径：data/CC-MAIN-2019-09/*
- CC-MAIN-2019-04
  - 分割：训练
  - 路径：data/CC-MAIN-2019-04/*
- CC-MAIN-2018-51
  - 分割：训练
  - 路径：data/CC-MAIN-2018-51/*
- CC-MAIN-2018-47
  - 分割：训练
  - 路径：data/CC-MAIN-2018-47/*
- CC-MAIN-2018-43
  - 分割：训练
  - 路径：data/CC-MAIN-2018-43/*
- CC-MAIN-2018-39
  - 分割：训练
  - 路径：data/CC-MAIN-2018-39/*
- CC-MAIN-2018-34
  - 分割：训练
  - 路径：data/CC-MAIN-2018-34/*
- CC-MAIN-2018-30
  - 分割：训练
  - 路径：data/CC-MAIN-2018-30/*
- CC-MAIN-2018-26
  - 分割：训练
  - 路径：data/CC-MAIN-2018-26/*
- CC-MAIN-2018-22
  - 分割：训练
  - 路径：data/CC-MAIN-2018-22/*
- CC-MAIN-2018-17
  - 分割：训练
  - 路径：data/CC-MAIN-2018-17/*
- CC-MAIN-2018-13
  - 分割：训练
  - 路径：data/CC-MAIN-2018-13/*
- CC-MAIN-2018-09
  - 分割：训练
  - 路径：data/CC-MAIN-2018-09/*
- CC-MAIN-2018-05
  - 分割：训练
  - 路径：data/CC-MAIN-2018-05/*
- CC-MAIN-2017-51
  - 分割：训练
  - 路径：data/CC-MAIN-2017-51/*
- CC-MAIN-2017-47
  - 分割：训练
  - 路径：data/CC-MAIN-2017-47/*
- CC-MAIN-2017-43
  - 分割：训练
  - 路径：data/CC-MAIN-2017-43/*
- CC-MAIN-2017-39
  - 分割：训练
  - 路径：data/CC-MAIN-2017-39/*
- CC-MAIN-2017-34
  - 分割：训练
  - 路径：data/CC-MAIN-2017-34/*
- CC-MAIN-2017-30
  - 分割：训练
  - 路径：data/CC-MAIN-2017-30/*
- CC-MAIN-2017-26
  - 分割：训练
  - 路径：data/CC-MAIN-2017-26/*
- CC-MAIN-2017-22
  - 分割：训练
  - 路径：data/CC-MAIN-2017-22/*
- CC-MAIN-2017-17
  - 分割：训练
  - 路径：data/CC-MAIN-2017-17/*
- CC-MAIN-2017-13
  - 分割：训练
  - 路径：data/CC-MAIN-2017-13/*
- CC-MAIN-2017-09
  - 分割：训练
  - 路径：data/CC-MAIN-2017-09/*
- CC-MAIN-2017-04
  - 分割：训练
  - 路径：data/CC-MAIN-2017-04/*
- CC-MAIN-2016-50
  - 分割：训练
  - 路径：data/CC-MAIN-2016-50/*
- CC-MAIN-2016-44
  - 分割：训练
  - 路径：data/CC-MAIN-2016-44/*
- CC-MAIN-2016-40
  - 分割：训练
  - 路径：data/CC-MAIN-2016-40/*
- CC-MAIN-2016-36
  - 分割：训练
  - 路径：data/CC-MAIN-2016-36/*
- CC-MAIN-2016-30
  - 分割：训练
  - 路径：data/CC-MAIN-2016-30/*
- CC-MAIN-2016-26
  - 分割：训练
  - 路径：data/CC-MAIN-2016-26/*
- CC-MAIN-2016-22
  - 分割：训练
  - 路径：data/CC-MAIN-2016-22/*
- CC-MAIN-2016-18
  - 分割：训练
  - 路径：data/CC-MAIN-2016-18/*
- CC-MAIN-2016-07
  - 分割：训练
  - 路径：data/CC-MAIN-2016-07/*
- CC-MAIN-2015-48
  - 分割：训练
  - 路径：data/CC-MAIN-2015-48/*
- CC-MAIN-2015-40
  - 分割：训练
  - 路径：data/CC-MAIN-2015-40/*
- CC-MAIN-2015-35
  - 分割：训练
  - 路径：data/CC-MAIN-2015-35/*
- CC-MAIN-2015-32
  - 分割：训练
  - 路径：data/CC-MAIN-2015-32/*
- CC-MAIN-2015-27
  - 分割：训练
  - 路径：data/CC-MAIN-2015-27/*
- CC-MAIN-2015-22
  - 分割：训练
  - 路径：data/CC-MAIN-2015-22/*
- CC-MAIN-2015-18
  - 分割：训练
  - 路径：data/CC-MAIN-2015-18/*
- CC-MAIN-2015-14
  - 分割：训练
  - 路径：data/CC-MAIN-2015-14/*
- CC-MAIN-2015-11
  - 分割：训练
  - 路径：data/CC-MAIN-2015-11/*
- CC-MAIN-2015-06
  - 分割：训练
  - 路径：data/CC-MAIN-2015-06/*
- CC-MAIN-2014-52
  - 分割：训练
  - 路径：data/CC-MAIN-2014-52/*
- CC-MAIN-2014-49
  - 分割：训练
  - 路径：data/CC-MAIN-2014-49/*
- CC-MAIN-2014-42
  - 分割：训练
  - 路径：data/CC-MAIN-2014-42/*
- CC-MAIN-2014-41
  - 分割：训练
  - 路径：data/CC-MAIN-2014-41/*
- CC-MAIN-2014-35

搜集汇总

数据集介绍

构建方式

FineWeb数据集由96个Common Crawl快照构建而成，包含15万亿个token，旨在用于训练高性能的大型语言模型（LLM）。该数据集的构建过程包括文本提取、基础过滤、去重和内容过滤等多个步骤。首先，使用trafilatura库从WARC文件中提取文本内容，然后进行URL过滤、语言过滤和质量过滤。接着，对每个快照进行MinHash去重，并应用C4数据集中的部分过滤规则。此外，还开发了自定义启发式过滤器，以进一步提高数据质量。最后，通过教育质量分类器筛选出1.3万亿token的教育内容子集FineWeb-Edu。

特点

FineWeb数据集具有以下特点：1. 规模庞大，包含15万亿个token，足以训练具有500亿参数的Chinchilla-optimal模型；2. 质量高，通过一系列启发式过滤规则和去重策略，有效去除了低质量内容和重复文本；3. 包含教育内容子集FineWeb-Edu，适用于训练在知识密集型和推理密集型任务上表现更好的LLM。

使用方法

FineWeb数据集可用于训练大型语言模型，以提高其在文本生成、机器翻译、文本分类等任务上的性能。用户可以使用trafilatura库从WARC文件中提取文本内容，然后应用一系列过滤和去重规则，构建自己的LLM训练数据集。此外，FineWeb-Edu子集可以用于训练在教育领域表现更好的LLM。

背景与挑战

背景概述

FineWeb数据集是一个大规模的预训练数据集，由96个Common Crawl快照中的15万亿个token组成。这个数据集的创建旨在解决当前大型语言模型（LLM）预训练数据集质量和规模的问题。许多先进的开放LLM，如Llama 3和Mixtral的预训练数据集并未公开，且关于其创建过程的信息很少。FineWeb数据集的创建者通过深入研究去重和过滤策略，详细记录和消融了所有设计选择，以提高对如何最佳地策划高质量预训练数据集的理解。此外，还引入了FineWeb-Edu，这是一个从FineWeb中筛选出的1.3万亿个token的教育文本集合。在知识密集型和推理密集型基准测试如MMLU和ARC上，在FineWeb-Edu上预训练的LLM表现出显著更好的性能。FineWeb数据集及其相关的数据策划代码库和模型被公开发布，为LLM预训练数据集的策划提供了重要的资源和知识。

当前挑战

FineWeb数据集面临着以下挑战：1)数据集的构建过程中，如何选择和调整过滤启发式方法，以及如何进行去重，以产生有效且高质量的过滤策略；2)如何将数据集应用于真实世界的任务，并评估其在实际应用中的性能；3)如何解决数据集可能存在的偏差问题，以确保数据集的公平性和可靠性；4)如何处理数据集中的个人和敏感信息，以保护用户的隐私和安全。

常用场景

经典使用场景

FineWeb数据集是一个由96个Common Crawl快照衍生而来的15万亿token的文本数据集，主要用于训练大型语言模型（LLM）。它通过一系列的数据清洗、过滤和去重策略，有效地提高了LLM的性能。FineWeb数据集的创建过程涉及深入的实验和设计选择，包括文本提取、基础过滤、去重和内容过滤等。这些设计选择对于LLM的下游能力和性能有着巨大的影响。此外，FineWeb-Edu数据集是FineWeb的一个子集，包含1.3万亿token的教育文本，用于提高LLM在知识密集型和推理密集型任务上的性能。

解决学术问题

FineWeb数据集解决了LLM训练中数据集质量对模型性能的影响问题。在现有的LLM训练中，数据集的质量和规模对于模型的性能有着决定性的影响。然而，现有的公开LLM预训练数据集的质量和规模往往不尽如人意。FineWeb数据集的创建通过一系列的实验和设计选择，有效地提高了LLM的性能。此外，FineWeb-Edu数据集的创建进一步解决了LLM在知识密集型和推理密集型任务上的性能问题。

衍生相关工作

FineWeb数据集的创建启发了一系列相关工作。例如，一些研究尝试将FineWeb数据集与其他类型的数据（如书籍、演讲稿等）相结合，以提高LLM的性能。此外，一些研究尝试使用更高级的数据清洗、过滤和去重策略，以提高LLM的性能。FineWeb数据集的创建为LLM的训练提供了一个新的研究方向，并为未来的研究提供了重要的启示。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集