essential-web

Hugging Face2025-06-15 更新2025-06-16 收录

下载链接：

https://huggingface.co/datasets/Research-EAI/essential-web

下载链接

链接失效反馈

官方服务：

资源简介：

Essential-Web是一个包含24万亿个标记的Web数据集，具有文档级别的元数据，旨在用于灵活的数据集策展。该数据集为23.6亿个文档提供了元数据，包括主题分类、网页类型、内容复杂性和文档质量评分。研究人员可以使用提供的元数据过滤和策展专业数据集，从而减少对自定义预处理流程和特定领域分类器的需求。

Essential-Web is a web dataset containing 24 trillion tokens, with document-level metadata, designed for flexible dataset curation. This dataset provides metadata for 2.36 billion documents, including topic categorization, webpage type, content complexity, and document quality scores. Researchers can use the provided metadata to filter and curate specialized datasets, thereby reducing the need for custom preprocessing pipelines and domain-specific classifiers.

创建时间：

2025-06-15

原始信息汇总

Essential-Web 数据集概述

📋 数据集基本信息

名称: Essential-Web
规模: 24万亿token，包含23.6亿个文档
许可证: Apache-2.0
主要特点: 提供文档级元数据，支持灵活的数据集筛选和定制

🔍 核心特征

分类系统

Free Decimal Correspondence (FDC): 受杜威十进制分类法启发的开放分类法，包含12个主要类别
Blooms Taxonomy: 基于Anderson和Krathwohl修订版的教育目标分类法
- 知识领域分类（事实性、概念性、程序性、元认知）
- 认知处理水平分类（记忆、理解、应用、分析、评估、创造）

文档特征

文档类型分类:
- v1版本包含17种类型（新闻/社论、学术/研究、参考/百科全书等）
- v2版本包含25种细化类型（关于组织、学术写作、音频转录等）
内容质量维度:
- 推理深度（基础推理到卓越推理）
- 技术正确性（技术缺陷到异常正确）
- 教育水平（普通受众到研究生/专家水平）

⚙️ 数据处理流程

数据来源: 101个Common Crawl快照（2013-2024年）
处理步骤:
- 文档ID生成（使用xxhash.xxh3_64_intdigest）
- 全局去重和快照级去重（Minhash LSH，Jaccard阈值0.7）
- 质量标注（使用RedPajama-Data-V2流程变体）
- 质量过滤（保留高质量英文文档）
- 分类标注（使用EAI-Taxonomy-0.5b分类器）

🎯 性能表现

数学内容: 比基线高15.3%
编程内容: 比基线高14.3%
STEM内容: 比基线高24.5%
医学内容: 比基线高8.6%

🚀 相关资源

领域特定数据集

数学: EssentialAI/eai-taxonomy-math-w-fm
编程: EssentialAI/eai-taxonomy-code-w-dclm
医学: EssentialAI/eai-taxonomy-med-w-dclm
STEM: EssentialAI/eai-taxonomy-stem-w-dclm

分类模型

EAI-Taxonomy-0.5b: EssentialAI/eai-taxonomy-0.5b

🎯 使用场景

快速筛选创建特定领域数据集
灵活探索不同主题和质量的网络内容
构建专业训练语料库
基于训练结果迭代改进数据集组成
质量控制（过滤低质量内容，保留推理密集文档）

搜集汇总

数据集介绍

构建方式

Essential-Web数据集构建于101个Common Crawl WARC快照的基础之上，采用多阶段处理流程确保数据质量。通过xxhash算法生成唯一文档标识，实施全局哈希去重和局部Minhash LSH去重（Jaccard相似度阈值0.7）。质量标注环节融合统计方法与改进版RedPajama-Data-V2流程，辅以DCLM-baseline fastText分类器。最终经过人工调优的过滤器保留高质量英文文档，并投入9万AMD MI300x GPU小时完成基于EAI-Taxonomy-0.5b的文档分类。

使用方法

研究者可通过SQL式查询快速构建领域专用语料库，如使用eai_taxonomy.free_decimal_correspondence字段筛选科学类文档（主类5）。数据集支持按教育水平（从通识到专家级）、文档类型（22种细分类）或推理深度（5级量表）进行组合过滤。对于教育应用，可结合布鲁姆分类法的认知处理层级（记忆-创造6阶）与知识领域（事实性-元认知）开展针对性研究。预构建的数学、医学等子集可直接加载，用户亦可基于line_start_n_end_idx字段实现文本结构分析。

背景与挑战

背景概述

Essential-Web数据集由EssentialAI机构构建，是一个规模庞大的网络文本数据集，涵盖24万亿标记和23.6亿份文档。该数据集基于Common Crawl的101个快照数据，通过复杂的处理流程构建而成，包括文档去重、质量标注和分类等步骤。数据集采用Free Decimal Correspondence（FDC）分类法，这是一种受杜威十进制分类法启发的开放分类系统，包含12个主要类别，能够对网络内容进行精确分类。Essential-Web旨在为研究人员提供灵活的元数据过滤功能，支持快速构建领域特定的数据集，如数学、代码、STEM和医学等。其构建过程中利用了先进的分类模型EAI-Taxonomy-0.5b，消耗了约90,000 AMD MI300x GPU小时的计算资源。

当前挑战

Essential-Web数据集面临多方面的挑战。在领域问题方面，尽管数据集在数学、代码、STEM和医学等领域表现出色，但其性能仍依赖于精确的元数据过滤，如何进一步提升分类精度和覆盖范围是一个关键问题。构建过程中的挑战包括：1) 大规模数据的去重问题，尤其是在跨101个快照的全局去重中，如何平衡计算效率和准确性；2) 质量标注的可靠性，依赖统计和模型的方法可能导致某些高质量内容被错误过滤；3) 分类系统的复杂性，FDC分类法虽然系统化，但在实际应用中如何确保分类的一致性和准确性仍需优化；4) 计算资源的消耗，数据集的构建和分类需要大量GPU资源，限制了其可扩展性。

常用场景

经典使用场景

在自然语言处理领域，Essential-Web数据集因其24万亿token的庞大规模和精细的文档级元数据标注而成为构建领域专用语料库的理想选择。研究者通过其提供的FDC分类体系和Bloom认知分类标签，能够快速筛选数学、医学、STEM等专业领域的高质量文本，显著提升了领域自适应预训练的效率。

解决学术问题

该数据集有效解决了大规模网络文本数据中存在的质量参差、领域混杂等核心问题。通过集成文档类型识别、内容完整性评估和技术正确性标注等多维度质量信号，为构建可靠的语言模型训练数据提供了标准化解决方案，特别是在处理专业领域文本时的准确率比传统网络爬取数据提升8.6%-24.5%。

实际应用

在实际工业应用中，科技公司利用该数据集快速构建垂直领域的知识增强型语言模型。医疗健康领域通过筛选高质量医学文献训练诊断辅助系统，教育科技企业则基于Bloom分类体系开发自适应学习材料，而代码生成模型通过精准提取技术文档获得性能提升。

数据集最近研究