Danish Language Datasets Collection

github2025-12-26 更新2026-01-05 收录

下载链接：

https://github.com/VLa-Labs/Danish-Language-Dataset-List

下载链接

链接失效反馈

官方服务：

资源简介：

该存储库包含31个公开可用的丹麦语言数据集的精选元数据集合，旨在帮助NLP研究人员、语言学家和学生快速定位用于情感分类、文本分类、语义相似性和命名实体识别等任务的资源。

This repository contains a curated collection of metadata for 31 publicly available Danish-language datasets, aimed at assisting NLP researchers, linguists, and students to quickly locate resources for tasks including sentiment classification, text classification, semantic similarity, and named entity recognition.

创建时间：

2025-12-17

原始信息汇总

Danish Language Datasets Collection 数据集概述

数据集简介

本资源库包含一个精心整理的元数据集合，收录了31个公开可用的丹麦语数据集。该集合旨在帮助自然语言处理（NLP）研究人员、语言学家和学生快速定位用于情感分类、文本分类、语义相似性和命名实体识别等多种研究任务的资源。

关键元数据字段

数据集名称：资源的官方名称。
验证数据集URL：有效的数据集地址链接。
模态：数据类型（例如：文本）。
任务：适用的自然语言处理任务。
原始论文URL：数据集发表原始论文的链接。
描述：数据集内容和用途的简要总结。

数据预览

以下是该集合中包含的前5个数据集的预览：

数据集名称	验证数据集URL	模态	任务	原始论文URL	描述
AngryTweets	https://danlp.alexandra.dk	文本	情感分类	https://aclanthology.org/2021.nodalida-main.53/	这是一个丹麦语情感分析数据集，旨在推进丹麦语自然语言处理领域，数据收集自Twitter。语料库包含4921条带注释的推文，其中1266条为双重注释，注释者间一致性为65%。
Common Crawl	https://commoncrawl.org/the-data/	文本、图像、视频	文本分类	http://www.aclweb.org/anthology/P13-1135	Common Crawl语料库包含通过网络爬虫12年收集的PB级数据，支持自然语言处理预训练等任务。语料库包含原始网页数据、元数据提取物和文本提取物。Common Crawl数据存储在亚马逊网络服务的公共数据集以及全球多个学术云平台上。
Danish Gigaword Corpus	https://gigaword.dk	文本	文本分类	https://aclanthology.org/2021.nodalida-main.46/	丹麦语Gigaword语料库由多个部分组成，每个部分对应一个单一的文本来源。它是由许多机构和许多丹麦语使用者共同努力构建的，旨在构建一个代表该语言的十亿词级语料库，力求对尽可能广泛和多样化的用户群体有用。
Copenhagen Dependency Treebank	https://github.com/mbkromann/copenhagen-dependency-treebank	文本	文本分类	https://research.cbs.dk/en/publications/the-danish-dependency-treebank-and-the-dtag-treebank-tool/	哥本哈依存树库是一组基于依存语法形式主义“不连续语法”进行语言学注释的文本集合（树库）。该项目包含10万词的丹麦语依存树库和9.5万词的哥本哈根丹麦语-英语依存树库。这些树库可用于训练自然语言解析器、基于语法的机器翻译系统以及其他基于统计的自然语言应用。
COR register	https://cst.ku.dk/english/projects/the-central-word-register-for-danish-cor/	文本	语义相似性	https://aclanthology.org/2022.lrec-1.6/	COR是丹麦人工智能计划下的丹麦语词汇资源，专为丹麦语自然语言处理任务设计。它包含通用丹麦语词汇的形态学和语义信息，由丹麦语言机构共同开发。访问需要申请许可，适用于学术和企业界的丹麦语人工智能开发。

搜集汇总

数据集介绍

构建方式

在丹麦语自然语言处理研究领域，数据资源的系统化整合对于推动语言技术进步至关重要。丹麦语言数据集集合通过精心筛选与整理，汇集了31个公开可用的丹麦语数据集，其构建过程遵循严谨的学术标准。每个数据集均经过验证，确保来源可靠且链接有效，涵盖了文本、图像与视频等多种模态。数据集的元数据字段设计科学，包括名称、原始论文链接及详细描述，为研究者提供了清晰的背景信息与学术依据。这种系统化的元数据收集方式，不仅提升了数据资源的可发现性，也为跨任务研究奠定了坚实基础。

使用方法

研究者可通过访问GitHub仓库中的CSV文件，便捷地浏览与搜索整个数据集集合。该文件以表格形式呈现，列明了每个数据集的名称、有效链接、模态、适用任务及描述等关键信息，便于快速定位所需资源。对于具体数据集的使用，用户可直接通过验证后的URL访问原始数据源，并参考提供的原始论文以深入理解数据构建方法与适用场景。例如，针对情感分析任务，可选用AngryTweets数据集；若需进行句法分析，则可利用Copenhagen Dependency Treebank。这种元数据引导的使用方式，显著降低了数据搜寻与验证的时间成本，提升了研究效率。

背景与挑战

背景概述

丹麦语言数据集集合由研究机构与学者共同构建，旨在系统化整理丹麦语自然语言处理资源，以支持该领域的基础与应用研究。该集合收录了31个公开可用的丹麦语数据集，覆盖情感分类、文本分类、语义相似性及命名实体识别等多种任务，反映了丹麦语在数字化时代语言资源建设的迫切需求。其创建依托于丹麦人工智能倡议及多所高校的合作，通过统一元数据框架提升了数据可发现性与复用性，为北欧语言技术发展提供了关键基础设施。

当前挑战

丹麦语作为低资源语言，面临数据稀缺与标注成本高昂的挑战，制约了模型在复杂任务上的性能。数据集构建过程中需应对网络文本的噪声过滤、方言变体处理以及跨领域泛化能力不足等问题。同时，元数据标准化与版权许可协调增加了集合维护的复杂性，如何平衡数据开放性与隐私保护亦是持续存在的难题。

常用场景

经典使用场景

在丹麦语自然语言处理领域，该数据集集合为研究者提供了系统化的资源导航，尤其适用于情感分类、文本分类等核心任务。例如，AngryTweets数据集通过标注的推特文本，支持情感分析模型的训练与评估；而丹麦千兆词库则作为大规模语料，为语言模型预训练奠定基础。这些资源共同构建了丹麦语NLP研究的实验环境，促进了跨任务的语言技术开发。

解决学术问题

该数据集集合有效缓解了丹麦语资源分散与稀缺的学术困境，为低资源语言研究提供了标准化基准。通过整合如哥本哈依存树库等结构化标注数据，它支持句法解析、语义相似度计算等基础研究，推动了丹麦语语言学理论与计算模型的协同发展。其意义在于打破了英语主导的NLP研究格局，为多语言人工智能的均衡演进贡献了关键基础设施。

实际应用

在实际应用中，这些数据集支撑了丹麦语智能系统的开发，例如基于情感分析的社交媒体监控工具，或利用语义资源的企业级聊天机器人。公共机构可借助树库资源优化自动翻译服务，而企业则能通过分类数据集构建定制化的文本过滤系统。这些应用不仅提升了丹麦语地区的数字化服务水平，也为小语种技术商业化提供了可行路径。

数据集最近研究