dala_label_da
收藏DaLA - Danish Linguistic Acceptability Dataset (Danish Label Variant)
数据集基本信息
- 数据集名称: DaLA - Danish Linguistic Acceptability Dataset (Danish Label Variant)
- 数据集地址: https://huggingface.co/datasets/giannor/dala_label_da
- 语言: 丹麦语 (da)
- 主要任务: 文本分类 (text-classification)
- 子任务/标签: 语言可接受性 (linguistic-acceptability)、基准测试 (benchmark)、最小对 (minimal-pairs)
- 许可证: CC BY 4.0 (cc-by-4.0)
- 数据集规模: 1K < n < 10K
数据集描述
此数据集是 DaLA Standard 的一个变体,其标签使用丹麦语(原版使用英语),数据内容相同。DaLA 是一个用于丹麦语语言可接受性判断的基准数据集,旨在评估 NLP 模型(尤其是大语言模型)对现实世界丹麦语句子语法性的理解能力。该数据集通过引入更广泛、更现实的错误类型,并提供了适用于少样本或微调评估的数据划分,扩展了先前的资源。
数据构建与内容
数据集通过以下方式构建:
- 分析现实世界的丹麦语写作错误。
- 设计了 14 种不同的破坏函数,以反映常见的丹麦语错误(例如,代词混淆、后缀错误、限定词互换)。
- 对每个正确的丹麦语句子应用单一破坏,创建一个错误的对应句子,从而产生仅因一个错误而不同的句子最小对。
数据集包含以下字段:
text: 句子文本 (string)corruption_type: 破坏类型标识符 (string)label_da: 丹麦语标签 (string)label: 二进制可接受性标签 (int64)
数据划分与统计
| 划分名称 | 样本数量 | 数据大小 (字节) |
|---|---|---|
| train | 4,592 | 677,973 |
| validation | 386 | 55,377 |
| test | 2,678 | 398,975 |
| full_train | 5,352 | 796,707 |
- 总下载大小: 1,048,229 字节
- 总数据集大小: 1,929,032 字节
数据集变体
存在三个 DaLA 数据集变体,规模与比例不同。本变体 (dala_label_da) 是 dala (标准基准) 的丹麦语标签版本。
| 变体名称 | 描述 | 近似规模 | 链接 |
|---|---|---|---|
dala |
标准基准,比例与先前丹麦语可接受性数据集相当 | 3,328 样本 | https://huggingface.co/datasets/giannor/dala |
dala_medium |
使用更多可用样本的扩展版本 | ~6,056 样本 | https://huggingface.co/datasets/giannor/dala_medium |
dala_large |
包含完整扩展数据集的最大版本 | ~7,656 样本 | https://huggingface.co/datasets/giannor/dala_large |
每个变体都包含训练集、验证集和测试集划分。
用途与加载
数据集主要用于:
- 模型评估与基准测试:评估模型在语法判断方面的能力。
- 最小对评估:错误类型区分和细粒度分析。
使用 Hugging Face datasets 库加载:
python
from datasets import load_dataset
dataset = load_dataset("giannor/dala_label_da")
基准性能与引用
在原论文中,DaLA 被用于对各种开源大语言模型和模型类型进行基准测试。在许多模型上,DaLA 的表现低于先前的丹麦语可接受性基准,突显了 DaLA 的更大难度和区分能力。
引用信息: bibtex @misc{barmina2025daladanishlinguisticacceptability, title={DaLA: Danish Linguistic Acceptability Evaluation Guided by Real World Errors}, author={Gianluca Barmina and Nathalie Carmen Hau Norman and Peter Schneider-Kamp and Lukas Galke}, year={2025}, eprint={2512.04799}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2512.04799}, }
论文链接: https://arxiv.org/abs/2512.04799
相关资源
- GitHub 仓库: https://github.com/N-essuno/DaLA (包含代码和数据生成脚本)




