essential-web-v1.0
收藏Hugging Face2025-06-18 更新2025-06-19 收录
下载链接:
https://huggingface.co/datasets/EssentialAI/essential-web-v1.0
下载链接
链接失效反馈官方服务:
资源简介:
Essential-Web 是一个包含 24 万亿个标记的网页数据集,具有文档级元数据,旨在实现灵活的数据集策展。该数据集为 236 亿个文档提供了元数据,包括主题分类、网页类型、内容复杂性和文档质量评分。研究人员可以使用提供的元数据过滤和策展专业数据集,减少对自定义预处理流程和领域特定分类器的需求。
Essential-Web is a web dataset containing 24 trillion annotated tokens, equipped with document-level metadata, and designed for flexible dataset curation. This dataset provides metadata for 23.6 billion documents, including topic classification, web page type, content complexity, and document quality scores. Researchers can use the provided metadata to filter and curate specialized datasets, reducing the need for custom preprocessing pipelines and domain-specific classifiers.
创建时间:
2025-06-18
原始信息汇总
Essential-Web 数据集概述
基本信息
- 许可证: Apache-2.0
- 数据规模: >1TB
- 文档数量: 236亿
- 总token数: 24万亿
核心特点
- 文档级元数据: 包含主题分类、网页类型、内容复杂度、文档质量评分
- 灵活筛选: 支持通过元数据快速构建领域专用数据集
- 分类系统: 采用自由十进制对应(FDC)分类法
数据来源与处理
- 原始数据: 101个Common Crawl快照(2013-2024)
- 处理流程:
- 文档ID生成(xxhash.xxh3_64_intdigest)
- 全局去重
- Minhash LSH去重(Jaccard阈值0.7)
- 质量标注(RedPajama-Data-V2变体)
- 质量过滤(保留高质量英文文档)
- 分类标注(EAI-Taxonomy-0.5b模型)
分类系统
自由十进制对应(FDC)
- 层级结构: 3级分类(12个主类别)
- 分类路径:
- 主分类:
eai_taxonomy.free_decimal_correspondence.primary - 次分类:
eai_taxonomy.free_decimal_correspondence.secondary
- 主分类:
Bloom分类法
- 知识领域: 事实性/概念性/程序性/元认知
- 认知过程: 记忆/理解/应用/分析/评价/创造
文档特征
文档类型
- v1分类: 17种类型(新闻/学术/参考/代码等)
- v2分类: 25种类型(更细粒度)
内容质量
- 推理深度: 6级评估(基础到卓越)
- 技术正确性: 6级评估(错误到完美)
- 教育水平: 6级评估(大众到专业)
性能表现
- 数学内容: 接近基线8.0%
- 编程内容: 超过基线14.3%
- STEM内容: 超过基线24.5%
- 医学内容: 超过基线8.6%
相关资源
- 领域数据集:
- 数学: EssentialAI/eai-taxonomy-math-w-fm
- 代码: EssentialAI/eai-taxonomy-code-w-dclm
- 医学: EssentialAI/eai-taxonomy-med-w-dclm
- STEM: EssentialAI/eai-taxonomy-stem-w-dclm
- 分类模型: EssentialAI/eai-taxonomy-0.5b
搜集汇总
数据集介绍

构建方式
Essential-Web数据集构建于101个Common Crawl WARC快照的基础之上,采用多层次处理流程确保数据质量。通过xxhash算法生成唯一文档标识符,实施全局哈希去重和局部Minhash LSH去重(Jaccard相似度阈值0.7),并运用RedPajama-Data-V2改进版流水线进行质量标注。最终经过人工调校的过滤器保留高质量英文文档,同时采用EAI-Taxonomy-0.5b分类器进行文档标注,消耗约90,000 AMD MI300x GPU小时完成全库分类。
特点
该数据集最显著的特征在于其细粒度的多维度标注体系。采用受杜威十进制启发的FDC三级分类系统,涵盖12个主类别的知识体系;整合布鲁姆教育目标分类法,从认知过程和知识领域双重维度标注教育内容;独创的文档特征分析包含21种文档类型识别、6级推理深度评估和5级技术正确性分级。这种立体化的元数据架构支持研究者通过SQL式查询快速构建领域专用子集,如在数学、编程等垂直领域已实现超越基准数据集8%-24.5%的性能表现。
使用方法
研究者可通过分层过滤机制灵活使用该数据集。基于FDC分类代码可快速提取特定学科文献,如500-599对应科学技术类文档;结合布鲁姆分类代码能筛选特定认知层级的教学内容,如代码6对应创造性思维训练材料。质量维度过滤器可设置多重阈值,例如同时要求推理深度≥4级且技术正确性≥3级。数据集支持按文档类型、教育水平等20余个字段进行组合查询,使得构建十亿token规模的领域专用语料仅需分钟级操作,显著降低传统方法中定制分类器的开发成本。
背景与挑战
背景概述
Essential-Web数据集由Essential AI团队构建,是一个规模庞大的网络文本数据集,包含24万亿令牌和23.6亿份文档。该数据集基于Common Crawl的101个快照,通过复杂的处理流程构建而成,旨在为研究人员提供灵活的数据集筛选和定制能力。数据集采用了Free Decimal Correspondence分类系统,这是一种受杜威十进制分类法启发的开放分类法,能够对网络内容进行精确分类。Essential-Web的出现为自然语言处理领域提供了丰富的训练资源,特别是在领域特定数据集的快速构建方面展现了显著优势。
当前挑战
Essential-Web数据集面临的主要挑战包括:1) 领域问题挑战:虽然数据集在数学、代码、STEM和医学等领域表现出色,但与专业合成数据集相比仍存在差距,需要进一步提升领域特定内容的覆盖深度和质量;2) 构建过程挑战:处理如此大规模的数据集需要解决全球去重、质量标注和分类等复杂问题,特别是分类环节消耗了约90,000 AMD MI300x GPU小时,计算资源需求极高。此外,确保HTML到文本转换的质量,避免提取伪影和缺失内容也是构建过程中的重要技术难点。
常用场景
经典使用场景
在自然语言处理领域,Essential-Web数据集以其24万亿token的庞大规模和精细的元数据标注,成为构建领域专用语言模型的理想选择。该数据集通过Free Decimal Correspondence分类体系,允许研究者快速筛选数学、医学、STEM等特定领域的优质文档,显著提升了训练数据的精准度和多样性。其文档级别的质量评分和内容复杂度标注,为构建高性能领域模型提供了可靠的数据支撑。
解决学术问题
Essential-Web有效解决了海量网络数据质量参差不齐的学术难题。通过集成Bloom认知分类体系和专业技术正确性评估,该数据集帮助研究者规避低质量内容的干扰,专注于具有深度推理价值的文本。其多层次的元数据体系突破了传统网络爬取数据缺乏系统分类的局限,为领域自适应、知识迁移等前沿研究方向提供了标准化数据基础。
衍生相关工作
基于Essential-Web的元数据体系,研究社区已衍生出多个突破性工作。EssentialAI团队开发的EAI-Taxonomy分类模型成为领域数据筛选的新标准,其数学专用子集在定理证明任务中达到SOTA性能。Stanford团队利用该数据集构建的STEM知识图谱,显著提升了跨学科文献检索系统的效果。这些工作共同推动了结构化网络数据在AI领域的创新应用。
以上内容由遇见数据集搜集并总结生成



