nocola

Name: nocola
Creator: Language Technology Group (University of Oslo)
Published: 2026-02-04 23:33:23
License: 暂无描述

Hugging Face2026-02-04 更新2026-02-05 收录

下载链接：

https://huggingface.co/datasets/ltg/nocola

下载链接

链接失效反馈

官方服务：

资源简介：

NoCoLA zero 数据集是一个挪威语语言可接受性语料库，旨在用于语言学研究。该数据集包含三个主要字段：correct_text（正确文本）、incorrect_text（错误文本）和error（错误类型）。数据集仅包含测试集（test split），共有99,116个样本，总大小为23,464,301字节，下载大小为13,964,902字节。该数据集适用于语言可接受性判断、语法错误检测等自然语言处理任务。数据集的相关研究发表在2023年北欧计算语言学会议（NoDaLiDa）上。

提供机构：

Language Technology Group (University of Oslo)

创建时间：

2026-02-04

原始信息汇总

NoCoLA 零样本数据集概述

数据集基本信息

数据集名称：NoCoLA 零样本数据集
发布机构：官方存储库
许可证：MIT
下载大小：13,964,902 字节
数据集大小：23,464,301 字节

数据集结构

特征

correct_text：字符串类型，表示正确的文本。
incorrect_text：字符串类型，表示不正确的文本。
error：字符串类型，表示错误类型。

数据划分

测试集：包含 99,116 个样本，大小为 23,464,301 字节。

来源与引用

引入论文

论文标题：NoCoLA: The Norwegian Corpus of Linguistic Acceptability
论文地址：https://aclanthology.org/2023.nodalida-1.60/
会议信息：Proceedings of the 24th Nordic Conference on Computational Linguistics (NoDaLiDa)，2023年5月，法罗群岛托尔斯港，由塔尔图大学图书馆出版。

引用格式

bibtex @inproceedings{jentoft-samuel-2023-nocola, title = "{N}o{C}o{LA}: The {N}orwegian Corpus of Linguistic Acceptability", author = "Jentoft, Matias and Samuel, David", editor = {Alum{"a}e, Tanel and Fishel, Mark}, booktitle = "Proceedings of the 24th Nordic Conference on Computational Linguistics (NoDaLiDa)", month = may, year = "2023", address = "T{o}rshavn, Faroe Islands", publisher = "University of Tartu Library", url = "https://aclanthology.org/2023.nodalida-1.60/", pages = "610--617", }

联系方式

联系人：David Samuel
邮箱：davisamu@ifi.uio.no

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，语言可接受性评估是衡量模型理解语言规范的关键任务。NoCoLA数据集的构建基于挪威语的语言学理论，通过系统性地收集和标注挪威语句子，形成了一套标准化的可接受性判断语料。该数据集包含正确文本、错误文本及对应的错误类型标注，其构建过程严格遵循语言学准则，确保了语料在语法、句法和语义层面的准确性与一致性，为挪威语的语言模型评估提供了可靠的基础资源。

特点

NoCoLA数据集以其高质量的标注和丰富的错误类型而著称，涵盖了挪威语中常见的语法和句法错误，为语言可接受性任务提供了细致的分析维度。数据集规模适中，包含近十万个例句，每个例句均配有明确的正确与错误版本，以及具体的错误描述，这使得它能够支持精细化的模型训练与评估。此外，其基于MIT许可证开放，促进了学术研究和工业应用的广泛使用，体现了数据共享的科学精神。

使用方法

使用NoCoLA数据集时，研究人员可将其应用于挪威语的语言可接受性分类任务，通过对比正确与错误文本，训练模型识别语言规范。数据集通常用于测试模型的零样本或小样本学习能力，用户可直接从HuggingFace平台下载测试集，并依据提供的特征进行模型评估。在实践过程中，建议结合相关论文中的基准方法，以确保评估的严谨性，从而推动挪威语自然语言处理技术的发展。

背景与挑战

背景概述

在计算语言学领域，语言可接受性评估是衡量语言模型对语法、句法及语义规则掌握程度的关键任务。NoCoLA数据集于2023年由挪威奥斯陆大学的研究人员Matias Jentoft和David Samuel构建并发布，作为挪威语的首个大规模语言可接受性语料库，其核心研究问题聚焦于评估模型对挪威语语法正确性的判别能力。该数据集的推出填补了北欧语言在可接受性评估资源上的空白，为挪威语自然语言处理研究提供了重要的基准工具，促进了跨语言模型泛化性能的深入探索。

当前挑战

NoCoLA数据集旨在解决挪威语语言可接受性分类的挑战，即模型需准确区分语法正确与错误的句子，这对理解语言的细微语法规则提出了较高要求。在构建过程中，研究人员面临数据收集与标注的困难，挪威语方言变体丰富且语法结构复杂，确保标注一致性与语言覆盖度成为关键难题。此外，作为零样本评估数据集，其设计需避免与训练数据重叠，以公正测试模型在未见数据上的泛化能力，这增加了数据筛选与平衡的复杂性。

常用场景

经典使用场景

在自然语言处理领域，NoCoLA数据集专为挪威语的语言可接受性评估而设计，其经典使用场景集中于语法错误检测与语言模型微调。研究者利用该数据集中的正确与错误文本对，训练模型以区分符合语法规范的表达与存在错误的句子，从而提升模型对挪威语语法结构的理解能力。这一过程不仅涉及句法分析，还涵盖语义一致性判断，为挪威语的语言技术开发提供了关键基准。

实际应用

在实际应用层面，NoCoLA数据集可直接服务于挪威语的教育技术工具，如自动语法检查器与写作辅助系统，帮助学习者识别并纠正语言错误。同时，该数据集为挪威语内容审核与文本质量评估提供了技术基础，适用于新闻媒体、出版业及社交媒体平台，确保文本内容的语言规范性。这些应用不仅提升了挪威语使用者的沟通效率，也增强了数字化环境中语言资源的可访问性与可靠性。

衍生相关工作

基于NoCoLA数据集，研究者已开展多项经典工作，包括开发针对挪威语的预训练语言模型微调策略，以及跨语言可接受性检测模型的迁移学习研究。这些工作扩展了数据集的适用范围，促进了挪威语与其他语言在语法错误检测任务上的比较分析。此外，该数据集还激发了关于低资源语言语法标注方法的新探索，为多语言自然语言处理社区的协作与创新提供了重要参考。

以上内容由遇见数据集搜集并总结生成