five

Aleph-Alpha-GermanWeb

收藏
Hugging Face2025-04-24 更新2025-04-25 收录
下载链接:
https://huggingface.co/datasets/Aleph-Alpha/Aleph-Alpha-GermanWeb
下载链接
链接失效反馈
官方服务:
资源简介:
Aleph-Alpha-GermanWeb是一个德语数据集,它通过结合启发式和基于模型的过滤技术与合成数据生成,实现在德语基准测试中的最先进性能。该数据集由Common Crawl网页数据、FineWeb2数据和合成数据三部分组成。
创建时间:
2025-04-15
原始信息汇总

AlephAlphaGermanWeb数据集概述

数据集基本信息

  • 许可证: other (open-aleph-license)
  • 数据来源:
    • Common Crawl web数据
    • FineWeb2
    • 合成生成数据

数据集配置

  • fineweb2: 包含不同质量级别的数据文件
    • fineweb2-high
    • fineweb2-medium-high
    • fineweb2-medium
    • fineweb2-medium-low
    • fineweb2-low
  • cc: 包含不同质量级别的Common Crawl数据文件
    • cc-high
    • cc-medium-high
    • cc-medium
    • cc-medium-low
    • cc-low
  • synthetic: 包含不同质量级别的合成数据文件
    • synthetic-high
    • synthetic-medium-high
    • synthetic-medium
    • synthetic-medium-low
    • synthetic-low

数据集特点

  • 结合启发式和基于模型的过滤技术
  • 包含合成数据生成
  • 在德语基准测试中表现优异

数据来源详情

  1. Common Crawl数据集

    • 基于以下六个Common Crawl快照:
      • CC-MAIN-2024-38
      • CC-MAIN-2024-42
      • CC-MAIN-2024-46
      • CC-MAIN-2024-51
      • CC-MAIN-2025-05
      • CC-MAIN-2025-08
  2. FineWeb 2数据集

    • 包含过滤后的高质量德语数据
  3. 合成数据集

    • 包含两列数据:
      • text: 后处理的合成文本
      • prompt_id: 指示生成使用的提示模板(0-4)

使用说明

  • 提供代码示例加载和过滤数据集
  • 支持将IterableDataset保存到磁盘
  • 内存需求: 约3.5GB RAM用于加载过滤ID
  • 处理时间: 根据硬件不同,可能需要10分钟以上开始迭代
搜集汇总
数据集介绍
main_image_url
构建方式
在德语自然语言处理领域,Aleph-Alpha-GermanWeb数据集通过多源数据融合策略实现了突破性构建。该数据集创新性地整合了三种数据来源:来自Common Crawl的原始网页抓取数据、经过精选的FineWeb2德语语料库,以及基于真实网页数据条件生成的合成文本。构建过程中采用启发式规则与模型过滤相结合的双重筛选机制,通过NeMo Curator工具对六个特定时间段的Common Crawl快照进行专业化处理,并配合精细设计的质量分级体系,将数据划分为high/medium/low等多个质量层级,最终以标准化parquet格式进行组织存储。
特点
作为德语NLP领域的前沿数据集,Aleph-Alpha-GermanWeb展现出鲜明的技术特征。其核心优势体现在多维度质量评估体系上,通过精细划分的六个质量等级(从high到low)实现数据差异化应用。数据集特别设计了独特的合成数据模块,包含五种基于不同提示模板(如重述、摘要、维基风格改写等)生成的文本变体。实验验证表明,该数据集在MMMLU等德语基准测试中显著超越传统语料库,即使与包含维基百科等优质数据的增强版FineWeb2相比,在8B参数规模下仍保持性能优势。
使用方法
该数据集为研究者提供了灵活的调用方式,可通过Hugging Face生态系统实现高效访问。对于Common Crawl和FineWeb2组件,采用基于WARC_ID或记录ID的内存过滤机制,建议准备3.5GB以上内存空间以支持高效查询。合成数据模块可直接加载,包含text和prompt_id双字段结构,后者对应论文附录中详细说明的五种提示模板。针对需要持久化存储的场景,数据集提供了转换为标准Dataset格式并分块保存的方案,支持最大4GB的分片尺寸设置,确保大数据量下的可管理性。各子数据集均支持流式加载模式,有效降低内存消耗。
背景与挑战
背景概述
Aleph-Alpha-GermanWeb数据集是由Aleph Alpha公司开发的新型德语语言数据集,旨在通过结合启发式与模型驱动的过滤技术以及合成数据生成方法,提升德语语言模型的基准性能。该数据集整合了来自Common Crawl网络数据、FineWeb2以及基于真实网络数据生成的合成数据三大来源,为德语自然语言处理研究提供了丰富资源。研究团队通过训练1B参数的Llama风格模型和8B参数的无分词器层次自回归变换器(HAT),在包括MMMLU在内的德语基准测试中展现了显著性能优势,甚至在加入维基百科等人工精选高质量数据后仍保持领先地位。
当前挑战
该数据集面临的挑战主要体现在两方面:在领域问题层面,德语作为形态丰富的语言,其复杂的语法结构和词汇变形特性对数据质量提出了更高要求,需要精确过滤低质量内容并保持语言多样性;在构建过程中,处理海量Common Crawl原始数据需要高效的分布式计算框架,而合成数据的生成则需精心设计提示模板以确保语义连贯性。此外,内存密集型操作如WARC ID过滤需要优化存储方案,且多源数据的异构性要求建立统一的标准化处理流程。
常用场景
经典使用场景
Aleph-Alpha-GermanWeb数据集在德语自然语言处理领域具有广泛的应用价值,尤其在语言模型训练和评估中表现卓越。该数据集通过整合Common Crawl网页数据、FineWeb2以及合成数据,为研究人员提供了丰富且高质量的德语语料。其经典使用场景包括训练大规模语言模型,如Llama-style模型和分层自回归变换器(HAT),并在德语基准测试中展现出显著性能优势。
实际应用
在实际应用中,Aleph-Alpha-GermanWeb数据集为德语智能助手、机器翻译系统和内容生成工具的开发提供了坚实基础。其高质量语料能够显著提升模型在德语语境下的理解和生成能力,适用于教育、商业和媒体等多个领域。例如,基于该数据集训练的模型可以更准确地处理德语文本摘要、问答和列表提取等任务。
衍生相关工作
Aleph-Alpha-GermanWeb数据集衍生了多项经典研究工作,包括基于其训练的1B Llama-style模型和8B分层自回归变换器(HAT)。这些模型在德语基准测试中表现优异,为后续研究提供了重要参考。此外,该数据集还推动了合成数据生成和模型驱动过滤技术的发展,为其他非英语语言资源的构建提供了可借鉴的方法论。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作