Hungarian Corpus of Linguistic Acceptability

github2023-01-23 更新2024-05-31 收录

下载链接：

https://github.com/nytud/HuCOLA

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含9076个匈牙利语句子，每个句子都由四个人工标注者进行标注，以确定其可接受性/语法性（0/1）。数据来源于三本语言学书籍，训练、验证和测试集的比例为80%、10%、10%。

This dataset comprises 9,076 Hungarian sentences, each annotated by four human annotators to determine their acceptability/grammaticality (0/1). The data is sourced from three linguistic books, with the training, validation, and test sets divided in the proportions of 80%, 10%, and 10%, respectively.

创建时间：

2022-01-10

原始信息汇总

数据集概述

数据集名称

HuCOLA - Hungarian Corpus of Linguistic Acceptability

数据集内容

句子数量：9,076句
句子来源：三本语言学书籍
- Kiefer Ferenc (szerk.) (1992), Strukturális magyar nyelvtan 1. Mondattan. Budapest, Akadémiai Kiadó.
- Alberti, Gábor and Laczkó, Tibor (eds) (2018), Syntax of Hungarian Nouns and Noun Phrases. I., II. Comprehensive grammar resources. Amsterdam University Press, Amsterdam.
- Katalin É. Kiss and Veronika Hegedűs (eds) (2021), Postpositions and Postpositional Phrases. Amsterdam: Amsterdam University Press.
标注方式：每句由四位人类标注者进行标注，最终标签由多数标注者决定。
标注内容：每个句子标注其可接受性/语法性（0/1）。

数据集划分

训练集：7,276句（80%）
验证集：900句（10%）
测试集：900句（10%）

数据格式

文件格式：JSON
键信息：
- sent_id：句子唯一ID，包含分割信息（train_...、test_...、val_...）和整数。
- sent：句子内容。
- sent_label：句子标签，0或1，分别表示错误（不可接受，不合语法）或正确（可接受，合语法）。

评估方式

评估指标：Matthews Correlation Coefficient
测试集标签获取：需联系ligeti-nagy.noemi@nytud.hu或访问HuLU网站进行自动评估。

许可证

许可证类型：CC-BY-SA 4.0

引用信息

引用文献：Ligeti-Nagy, N., Ferenczi, G., Héja, E., Jelencsik-Mátyus, K., Laki, L. J., Vadász, N., Yang, Z. Gy. and Váradi, T. (2022) HuLU: magyar nyelvű benchmark adatbázis kiépítése a neurális nyelvmodellek kiértékelése céljából. In: Berend, G., Gosztolya, G. and Vincze, V. (eds), XVIII. Magyar Számítógépes Nyelvészeti Konferencia. Szeged, Szegedi Tudományegyetem, Informatikai Intézet. 431–446.

搜集汇总

数据集介绍

构建方式

匈牙利语语言可接受性语料库（HuCOLA）的构建过程严谨而系统。该数据集包含9076个句子，这些句子源自三本语言学著作，并由两位人类标注者进行初步收集。每个句子随后由四位标注者进行标注，最终标签由多数标注者的意见决定。数据集的训练集、验证集和测试集分别占80%、10%和10%，遵循了英语语言可接受性语料库（GLUE基准）的比例分配。

特点

HuCOLA数据集的特点在于其专注于匈牙利语的语言可接受性评估。每个句子都被明确标注为可接受（1）或不可接受（0），这种二元分类为语言模型的训练和评估提供了清晰的基准。数据集的句子来源广泛，涵盖了匈牙利语的不同语法结构，确保了数据的多样性和代表性。此外，数据集的标注过程严格遵循多数原则，确保了标签的准确性和一致性。

使用方法

HuCOLA数据集的使用方法简便而高效。数据集以JSON格式提供，每个句子包含唯一的`sent_id`、句子文本`sent`以及可接受性标签`sent_label`。用户可以通过访问HuLU网站进行自动评估，或联系数据集维护者获取测试集的标签。评估指标采用马修斯相关系数（Matthew's Correlation Coefficient），确保评估结果的科学性和可靠性。数据集的使用需遵循CC-BY-SA 4.0许可，并在使用时引用相关文献。

背景与挑战

背景概述

匈牙利语语言学可接受性语料库（Hungarian Corpus of Linguistic Acceptability, HuCOLA）是匈牙利语言理解评估基准工具包（HuLU）的重要组成部分，旨在为匈牙利语的语言学研究提供高质量的标注数据。该数据集由匈牙利科学院语言学研究所的研究团队于2022年创建，主要研究人员包括Noémi Ligeti-Nagy、Gergő Ferenczi等。数据集包含9076个句子，每个句子均标注了其可接受性或语法正确性（0/1），数据来源于三本语言学著作，并由四位人工标注者进行标注。HuCOLA的构建不仅为匈牙利语的语法研究提供了重要资源，还为自然语言处理模型的评估和优化提供了基准。

当前挑战

HuCOLA数据集在构建和应用过程中面临多重挑战。首先，语言学可接受性标注本身具有主观性，不同标注者可能对同一句子的语法正确性存在分歧，尽管采用了多数投票机制，但仍难以完全消除标注偏差。其次，匈牙利语作为一种形态复杂的语言，其语法结构多样且灵活，这为句子的可接受性判断增加了难度。此外，数据集的构建依赖于有限的语言学文献资源，可能导致数据覆盖范围不够全面。最后，尽管数据集已划分为训练集、验证集和测试集，但测试集的标签未公开，需通过特定渠道获取，这在一定程度上限制了模型的评估效率。

常用场景

经典使用场景

匈牙利语语言可接受性语料库（HuCOLA）主要用于自然语言处理领域中的语言模型评估和语法可接受性研究。该数据集通过标注句子的语法正确性，为研究者提供了一个标准化的基准，用于测试和比较不同模型在匈牙利语语法理解方面的表现。特别是在神经语言模型的训练和评估中，HuCOLA数据集为研究者提供了丰富的语料支持，帮助模型更好地理解和生成符合匈牙利语语法的句子。

解决学术问题

HuCOLA数据集解决了自然语言处理领域中一个关键问题，即如何准确评估语言模型对语法可接受性的理解能力。通过提供大量经过人工标注的匈牙利语句子，该数据集为研究者提供了一个可靠的基准，用于衡量模型在处理复杂语法结构时的表现。这不仅推动了匈牙利语自然语言处理技术的发展，还为其他低资源语言的语法研究提供了参考。

衍生相关工作

基于HuCOLA数据集，研究者们开发了多种匈牙利语自然语言处理工具和模型。例如，匈牙利语语言理解基准工具包（HuLU）便是该数据集的重要衍生成果之一。HuLU不仅整合了HuCOLA数据集，还提供了自动评估功能，帮助研究者更高效地进行模型测试和比较。此外，该数据集还激发了更多关于匈牙利语语法和语言模型的研究，推动了该领域的技术进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集