Aleph-Alpha-GermanWeb

Hugging Face2025-04-24 更新2025-04-25 收录

下载链接：

https://huggingface.co/datasets/Aleph-Alpha/Aleph-Alpha-GermanWeb

下载链接

链接失效反馈

官方服务：

资源简介：

Aleph-Alpha-GermanWeb是一个德语数据集，它通过结合启发式和基于模型的过滤技术与合成数据生成，实现在德语基准测试中的最先进性能。该数据集由Common Crawl网页数据、FineWeb2数据和合成数据三部分组成。

创建时间：

2025-04-15

原始信息汇总

AlephAlphaGermanWeb数据集概述

数据集基本信息

许可证: other (open-aleph-license)
数据来源:
- Common Crawl web数据
- FineWeb2
- 合成生成数据

数据集配置

fineweb2: 包含不同质量级别的数据文件
- fineweb2-high
- fineweb2-medium-high
- fineweb2-medium
- fineweb2-medium-low
- fineweb2-low
cc: 包含不同质量级别的Common Crawl数据文件
- cc-high
- cc-medium-high
- cc-medium
- cc-medium-low
- cc-low
synthetic: 包含不同质量级别的合成数据文件
- synthetic-high
- synthetic-medium-high
- synthetic-medium
- synthetic-medium-low
- synthetic-low

数据集特点

结合启发式和基于模型的过滤技术
包含合成数据生成
在德语基准测试中表现优异

数据来源详情

Common Crawl数据集
- 基于以下六个Common Crawl快照:
  - CC-MAIN-2024-38
  - CC-MAIN-2024-42
  - CC-MAIN-2024-46
  - CC-MAIN-2024-51
  - CC-MAIN-2025-05
  - CC-MAIN-2025-08
FineWeb 2数据集
- 包含过滤后的高质量德语数据
合成数据集
- 包含两列数据:
  - text: 后处理的合成文本
  - prompt_id: 指示生成使用的提示模板(0-4)

使用说明

提供代码示例加载和过滤数据集
支持将IterableDataset保存到磁盘
内存需求: 约3.5GB RAM用于加载过滤ID
处理时间: 根据硬件不同，可能需要10分钟以上开始迭代

搜集汇总

数据集介绍

构建方式

在德语自然语言处理领域，Aleph-Alpha-GermanWeb数据集通过多源数据融合策略实现了突破性构建。该数据集创新性地整合了三种数据来源：来自Common Crawl的原始网页抓取数据、经过精选的FineWeb2德语语料库，以及基于真实网页数据条件生成的合成文本。构建过程中采用启发式规则与模型过滤相结合的双重筛选机制，通过NeMo Curator工具对六个特定时间段的Common Crawl快照进行专业化处理，并配合精细设计的质量分级体系，将数据划分为high/medium/low等多个质量层级，最终以标准化parquet格式进行组织存储。

特点

作为德语NLP领域的前沿数据集，Aleph-Alpha-GermanWeb展现出鲜明的技术特征。其核心优势体现在多维度质量评估体系上，通过精细划分的六个质量等级（从high到low）实现数据差异化应用。数据集特别设计了独特的合成数据模块，包含五种基于不同提示模板（如重述、摘要、维基风格改写等）生成的文本变体。实验验证表明，该数据集在MMMLU等德语基准测试中显著超越传统语料库，即使与包含维基百科等优质数据的增强版FineWeb2相比，在8B参数规模下仍保持性能优势。

使用方法

该数据集为研究者提供了灵活的调用方式，可通过Hugging Face生态系统实现高效访问。对于Common Crawl和FineWeb2组件，采用基于WARC_ID或记录ID的内存过滤机制，建议准备3.5GB以上内存空间以支持高效查询。合成数据模块可直接加载，包含text和prompt_id双字段结构，后者对应论文附录中详细说明的五种提示模板。针对需要持久化存储的场景，数据集提供了转换为标准Dataset格式并分块保存的方案，支持最大4GB的分片尺寸设置，确保大数据量下的可管理性。各子数据集均支持流式加载模式，有效降低内存消耗。

背景与挑战

背景概述

Aleph-Alpha-GermanWeb数据集是由Aleph Alpha公司开发的新型德语语言数据集，旨在通过结合启发式与模型驱动的过滤技术以及合成数据生成方法，提升德语语言模型的基准性能。该数据集整合了来自Common Crawl网络数据、FineWeb2以及基于真实网络数据生成的合成数据三大来源，为德语自然语言处理研究提供了丰富资源。研究团队通过训练1B参数的Llama风格模型和8B参数的无分词器层次自回归变换器（HAT），在包括MMMLU在内的德语基准测试中展现了显著性能优势，甚至在加入维基百科等人工精选高质量数据后仍保持领先地位。

当前挑战

该数据集面临的挑战主要体现在两方面：在领域问题层面，德语作为形态丰富的语言，其复杂的语法结构和词汇变形特性对数据质量提出了更高要求，需要精确过滤低质量内容并保持语言多样性；在构建过程中，处理海量Common Crawl原始数据需要高效的分布式计算框架，而合成数据的生成则需精心设计提示模板以确保语义连贯性。此外，内存密集型操作如WARC ID过滤需要优化存储方案，且多源数据的异构性要求建立统一的标准化处理流程。

常用场景

经典使用场景

Aleph-Alpha-GermanWeb数据集在德语自然语言处理领域具有广泛的应用价值，尤其在语言模型训练和评估中表现卓越。该数据集通过整合Common Crawl网页数据、FineWeb2以及合成数据，为研究人员提供了丰富且高质量的德语语料。其经典使用场景包括训练大规模语言模型，如Llama-style模型和分层自回归变换器（HAT），并在德语基准测试中展现出显著性能优势。

实际应用

在实际应用中，Aleph-Alpha-GermanWeb数据集为德语智能助手、机器翻译系统和内容生成工具的开发提供了坚实基础。其高质量语料能够显著提升模型在德语语境下的理解和生成能力，适用于教育、商业和媒体等多个领域。例如，基于该数据集训练的模型可以更准确地处理德语文本摘要、问答和列表提取等任务。

衍生相关工作

Aleph-Alpha-GermanWeb数据集衍生了多项经典研究工作，包括基于其训练的1B Llama-style模型和8B分层自回归变换器（HAT）。这些模型在德语基准测试中表现优异，为后续研究提供了重要参考。此外，该数据集还推动了合成数据生成和模型驱动过滤技术的发展，为其他非英语语言资源的构建提供了可借鉴的方法论。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集