dala_label_da

Hugging Face2026-02-13 更新2026-02-14 收录

下载链接：

https://huggingface.co/datasets/giannor/dala_label_da

下载链接

链接失效反馈

官方服务：

资源简介：

DaLA（丹麦语语言可接受性评估数据集）是一个用于评估自然语言处理模型（尤其是大型语言模型）对丹麦语句子语法性理解能力的基准数据集。该数据集通过分析真实世界中的丹麦语写作错误，设计了14种不同的错误类型（如代词混淆、后缀错误、限定词互换等），并为每个正确的丹麦语句子生成一个错误的对应句子，从而形成仅含一个错误的句子对（最小对）。数据集包含原始正确的句子（可接受）和错误的句子（不可接受），以及二进制可接受性标签和错误类型标识符。DaLA数据集有三个变体，分别具有不同的大小和比例：标准基准（约3,328个样本）、中等版本（约6,056个样本）和大型版本（约7,656个样本），每个变体都包含训练、验证和测试分割。该数据集主要用于模型评估和基准测试，以及最小对评估。数据集采用CC BY 4.0许可证发布。

DaLA (Danish Language Acceptability Assessment Dataset) is a benchmark dataset for evaluating natural language processing (NLP) models' ability to understand the grammatical acceptability of Danish sentences, particularly large language models (LLMs). The dataset analyzes real-world Danish writing errors to develop 14 distinct error types, including pronoun confusion, suffix errors, determiner swaps, and others. For each correct Danish sentence, an erroneous counterpart is generated, forming single-error sentence pairs (minimal pairs). The dataset contains original correct (acceptable) and erroneous (unacceptable) sentences, as well as binary acceptability labels and error type identifiers. There are three variants of the DaLA dataset with varying sizes and proportions: the standard benchmark (~3,328 samples), the medium version (~6,056 samples), and the large version (~7,656 samples). Each variant includes training, validation, and test splits. This dataset is primarily used for model evaluation, benchmarking, and minimal pair assessment, and is released under the CC BY 4.0 license.

创建时间：

2026-02-11

原始信息汇总

DaLA - Danish Linguistic Acceptability Dataset (Danish Label Variant)

数据集基本信息

数据集名称: DaLA - Danish Linguistic Acceptability Dataset (Danish Label Variant)
数据集地址: https://huggingface.co/datasets/giannor/dala_label_da
语言: 丹麦语 (da)
主要任务: 文本分类 (text-classification)
子任务/标签: 语言可接受性 (linguistic-acceptability)、基准测试 (benchmark)、最小对 (minimal-pairs)
许可证: CC BY 4.0 (cc-by-4.0)
数据集规模: 1K < n < 10K

数据集描述

此数据集是 DaLA Standard 的一个变体，其标签使用丹麦语（原版使用英语），数据内容相同。DaLA 是一个用于丹麦语语言可接受性判断的基准数据集，旨在评估 NLP 模型（尤其是大语言模型）对现实世界丹麦语句子语法性的理解能力。该数据集通过引入更广泛、更现实的错误类型，并提供了适用于少样本或微调评估的数据划分，扩展了先前的资源。

数据构建与内容

数据集通过以下方式构建：

分析现实世界的丹麦语写作错误。
设计了 14 种不同的破坏函数，以反映常见的丹麦语错误（例如，代词混淆、后缀错误、限定词互换）。
对每个正确的丹麦语句子应用单一破坏，创建一个错误的对应句子，从而产生仅因一个错误而不同的句子最小对。

数据集包含以下字段：

text: 句子文本 (string)
corruption_type: 破坏类型标识符 (string)
label_da: 丹麦语标签 (string)
label: 二进制可接受性标签 (int64)

数据划分与统计

划分名称	样本数量	数据大小 (字节)
train	4,592	677,973
validation	386	55,377
test	2,678	398,975
full_train	5,352	796,707

总下载大小: 1,048,229 字节
总数据集大小: 1,929,032 字节

数据集变体

存在三个 DaLA 数据集变体，规模与比例不同。本变体 (dala_label_da) 是 dala (标准基准) 的丹麦语标签版本。

变体名称	描述	近似规模	链接
`dala`	标准基准，比例与先前丹麦语可接受性数据集相当	3,328 样本	https://huggingface.co/datasets/giannor/dala
`dala_medium`	使用更多可用样本的扩展版本	~6,056 样本	https://huggingface.co/datasets/giannor/dala_medium
`dala_large`	包含完整扩展数据集的最大版本	~7,656 样本	https://huggingface.co/datasets/giannor/dala_large

每个变体都包含训练集、验证集和测试集划分。

用途与加载

数据集主要用于：

模型评估与基准测试：评估模型在语法判断方面的能力。
最小对评估：错误类型区分和细粒度分析。

使用 Hugging Face datasets 库加载： python from datasets import load_dataset dataset = load_dataset("giannor/dala_label_da")

基准性能与引用

在原论文中，DaLA 被用于对各种开源大语言模型和模型类型进行基准测试。在许多模型上，DaLA 的表现低于先前的丹麦语可接受性基准，突显了 DaLA 的更大难度和区分能力。

引用信息： bibtex @misc{barmina2025daladanishlinguisticacceptability, title={DaLA: Danish Linguistic Acceptability Evaluation Guided by Real World Errors}, author={Gianluca Barmina and Nathalie Carmen Hau Norman and Peter Schneider-Kamp and Lukas Galke}, year={2025}, eprint={2512.04799}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2512.04799}, }

论文链接: https://arxiv.org/abs/2512.04799

相关资源

GitHub 仓库: https://github.com/N-essuno/DaLA (包含代码和数据生成脚本)

搜集汇总

数据集介绍

构建方式

在丹麦语语言学可接受性评估领域，DaLA数据集的构建过程体现了对真实语言错误的系统性捕捉。研究团队深入分析了丹麦语书面语中的常见错误模式，并据此设计了14种不同的错误生成函数，涵盖了代词混淆、后缀误用及限定词互换等典型语法偏差。每个正确的丹麦语句子仅施加单一类型的错误扰动，从而生成与之对应的错误句子，形成结构严谨的最小对句集合。这种构建方式确保了数据集的错误类型既具有语言学代表性，又能精准反映实际使用中的语法问题。

使用方法

DaLA数据集主要用于评估自然语言处理模型，特别是大语言模型，对丹麦语语法可接受性的判断能力。研究者可通过Hugging Face的`datasets`库直接加载数据集的不同变体，进行少样本评估或微调训练。该数据集支持对模型在最小对句上的判别性能进行基准测试，并能依据错误类型进行深入的性能剖析，为丹麦语语言理解模型的开发与评估提供了关键工具。

背景与挑战

背景概述

在自然语言处理领域，语言可接受性判断任务旨在评估模型对语法正确性的理解能力，这对于衡量语言模型的深层语言知识至关重要。DaLA（Danish Linguistic Acceptability Dataset）数据集于2025年由Gianluca Barmina、Nathalie Carmen Hau Norman、Peter Schneider-Kamp和Lukas Galke等研究人员共同创建，专注于丹麦语的语言可接受性评估。该数据集的核心研究问题是提升丹麦语语法错误检测的准确性与泛化能力，通过引入基于真实世界错误的14种腐败类型，构建了包含可接受与不可接受句子的最小对，从而为丹麦语NLP模型提供了更贴近实际应用的基准测试工具。其发布显著推动了低资源语言的可接受性研究，并为跨语言语法理解模型的评估设立了新标准。

当前挑战

DaLA数据集所解决的语言可接受性判断问题面临多重挑战：丹麦语作为低资源语言，其语法结构的复杂性和多样性使得模型难以准确区分细微的语法错误，例如代词混淆或后缀误用，这要求模型具备深层的语言学知识。在数据集构建过程中，挑战主要集中于如何从真实世界的丹麦语写作错误中系统性地归纳出代表性的腐败类型，并确保生成的最小对在保持语义连贯性的同时仅包含单一语法偏差，以避免引入混淆因素。此外，平衡不同错误类型的分布以反映实际语言使用情况，并创建具有足够判别力的数据分割，也是构建过程中需要克服的技术难题。

常用场景

经典使用场景

在自然语言处理领域，语言可接受性评估是衡量模型对语法规则理解深度的关键任务。DaLA数据集作为丹麦语的语言可接受性基准，其经典使用场景在于通过最小对句法对比，评估大型语言模型在区分语法正确与错误句子方面的性能。该数据集通过引入14种基于真实错误的腐败类型，构建了精细的语法错误样本，使得研究人员能够在受控环境下测试模型对丹麦语语法细微差别的敏感度，为模型的语言能力提供标准化度量。

解决学术问题

DaLA数据集有效解决了丹麦语自然语言处理中语法评估资源匮乏的学术问题。传统基准往往局限于简单错误类型，难以反映真实语言使用的复杂性；而DaLA通过系统化采集现实写作错误，构建了涵盖代词混淆、后缀错误、限定词互换等多种腐败类型的语料库。这不仅提升了语法可接受性任务的判别难度，还为跨语言语法理论比较、低资源语言模型评估提供了实证基础，推动了语言理解模型在细粒度语法分析方面的发展。

实际应用

在实际应用中，DaLA数据集为丹麦语教育技术、自动语法检查工具的开发提供了核心训练与评估资源。教育机构可利用该数据集构建智能写作辅助系统，实时检测学习者作文中的语法错误并给出针对性反馈。同时，本地化内容生成平台能够借助DaLA优化丹麦语文本的质量控制模块，确保输出文本符合母语者的语法规范。这些应用不仅提升了语言技术的实用性，也促进了丹麦语在数字化环境中的规范使用。

数据集最近研究