丹麦Dynaword

Name: 丹麦Dynaword
Creator: 奥胡斯大学,亚历山德拉研究所,奥尔堡大学,南丹麦大学,哥本哈根大学
Published: 2025-08-05 17:27:09
License: 暂无描述

arXiv2025-08-05 更新2025-08-06 收录

下载链接：

https://huggingface.co/datasets/danish-foundation-models/danish-dynaword

下载链接

链接失效反馈

官方服务：

资源简介：

丹麦Dynaword是一个开源的大型丹麦语语料库，拥有超过48亿个标记，是同类数据集中最大的。它遵循可追溯的开放许可原则，数据来源清晰，并且通过社区协作不断更新。该数据集包含来自网络、书籍、电视等多种渠道的丹麦语文本，经过严格的质量检查，保证了数据质量。它可用于语言模型训练、自然语言处理研究等领域，并为开放数据社区提供了宝贵的资源。

Dynaword is an open-source large-scale Danish language corpus with over 4.8 billion tokens, making it the largest of its kind. It adheres to traceable open licensing principles, has clearly documented data sources, and is continuously updated via community collaboration. This corpus contains Danish text from diverse channels including the web, books, television and more, and has undergone strict quality inspections to ensure high data quality. It can be applied to fields such as language model training and natural language processing research, serving as a valuable resource for the open data community.

提供机构：

奥胡斯大学,亚历山德拉研究所,奥尔堡大学,南丹麦大学,哥本哈根大学

创建时间：

2025-08-04

原始信息汇总

Danish Dynaword 数据集概述

数据集基本信息

名称: Danish Dynaword
版本: 1.2.7
语言: 丹麦语（dan, dansk, Danish）
许可证: 开放许可，具体取决于各子数据集
模型: 使用该数据训练的模型参见 danish-foundation-models
联系方式: 通过讨论区提问

数据集描述

语言: 丹麦语（dan-Latn, dan-Latn-bornholm, dan-Latn-synnejyl）
样本数量: 960.99K
令牌数量（Llama 3）: 4.80B
平均文档长度（字符）: 15322.53

数据集摘要

Danish Dynaword 是一个包含多个领域的丹麦语自由文本数据集的集合。所有数据集均为开放许可，适合用于训练大型语言模型。数据集会持续更新，欢迎贡献新数据集。

加载数据集

python from datasets import load_dataset name = "danish-foundation-models/danish-dynaword" ds = load_dataset(name, split="train")

领域分布

领域	来源数量	令牌数量
法律	7	2.32B
书籍	8	732.52M
对话	6	497.09M
社交媒体	1	389.32M
其他	4	340.59M
网络	3	295.87M
百科全书	2	127.35M
新闻	3	60.63M
医疗	1	27.07M
朗读	1	7.30M
方言	1	847.97K

许可证分布

许可证类型	令牌数量
CC-0	2.00B
CC-BY-SA 4.0	1.37B
其他（无需署名）	904.61M
其他（需要署名）	515.61M

数据集结构

数据实例

python { "id": "adl_aakjaer06val", "text": "SAMLEDE VÆRKER...", "source": "adl", "added": "2020-09-14", "created": "1700-01-01, 2022-01-01", "token_count": 439908 }

数据字段

id: 文档唯一标识符
text: 文档内容
source: 数据来源
added: 添加到集合的日期
created: 文档创建日期范围
token_count: 使用 Llama 8B 分词器计算的令牌数

数据分割

整个语料库仅提供 train 分割。

数据集创建

创建理由

收集和整理这些数据集旨在提供开放许可的丹麦语数据，主要用于开发语言模型，也可用于研究语言发展和领域差异。

注释

除每个样本的元数据外，一般不包含注释。

来源数据

包含多个来源的数据，如欧洲联盟法律文档、丹麦法律信息系统、挪威巨量语料库等，每个来源有各自的许可证。

搜集汇总

数据集介绍

构建方式

Danish Dynaword数据集的构建基于公开许可的丹麦语语料库，通过社区协作不断更新和扩展。其构建过程严格遵循四大原则：可追溯的开放许可、可复现性、详尽文档化和可扩展性。数据集排除了社交媒体、受版权保护内容等模糊许可材料，通过轻量级测试确保数据格式、质量和文档的规范性，建立了可持续的社区贡献框架。

特点

该数据集作为目前最大的开放许可丹麦语语料库，包含4.8B标记，规模是同类数据集的四倍以上。其核心特点在于完全透明的许可协议、版本化管理和多源异构数据覆盖，涵盖法律文书、议会记录、文学作品等多样化领域。通过持续集成测试和模块化设计，实现了数据质量的动态维护与跨领域适用性验证。

使用方法

研究者可通过Hugging Face平台直接获取数据集版本化快照，配套提供数据溯源脚本和预处理代码。建议使用Gemma等架构进行迁移学习时，注意排除标记的评估数据以防止过拟合。数据集支持完整复现工作流，包含领域过滤、质量评估等模块化组件，适用于预训练、语言建模评估等场景。

背景与挑战

背景概述

Danish Dynaword是由奥胡斯大学、亚历山大学院、哥本哈根大学和南丹麦大学的研究团队于2025年提出的一个动态更新的丹麦语语料库。该数据集旨在解决自然语言处理领域中大规模数据集面临的三个核心问题：模糊的许可协议限制使用和共享、静态数据集发布阻碍社区贡献以及质量控制过程局限于发布团队。Danish Dynaword采用了开放许可协议，允许社区持续更新和扩展，其规模达到48亿标记，是同类丹麦语数据集的四倍以上。该数据集的推出为低资源语言处理提供了可持续的资源支持，并推动了开放科学在NLP领域的发展。

当前挑战

Danish Dynaword面临的主要挑战包括：1) 领域问题方面，需要解决低资源语言处理中的数据稀缺问题，同时确保数据质量和领域覆盖的平衡；2) 构建过程中的挑战涉及开放许可内容的识别与验证，特别是在处理OCR文本时面临的质量控制难题。此外，维护社区贡献机制、防止数据集污染以及处理版权内容的风险也是持续性的挑战。数据集还面临着规模上与非开放许可资源的差距，以及领域偏差问题，如法律文档占比过高而社交媒体数据不足的情况。

常用场景

经典使用场景

Danish Dynaword数据集在自然语言处理领域中被广泛应用于丹麦语的语言模型预训练和微调。作为一个大规模、开放许可的丹麦语语料库，它特别适用于低到中资源语言的模型开发。研究者可以利用该数据集进行词嵌入训练、语言模型性能评估以及跨语言迁移学习的研究。数据集的设计原则确保了其在学术研究中的可重复性和可持续性，使其成为北欧语言处理领域的重要基准资源。

衍生相关工作

该数据集启发了多个重要研究方向，包括低资源语言模型预训练策略、持续学习框架下的数据集维护方法，以及多语言嵌入基准测试。基于Danish Dynaword开发的Gemma-3-1b模型系列展示了在丹麦语任务上的显著性能提升。数据集的设计理念也影响了后续工作如MMTEB多语言文本嵌入基准和ScandEval北欧语言评估基准的构建，推动了北欧语言技术生态系统的整体发展。

数据集最近研究