Hungarian Corpus of Linguistic Acceptability
收藏github2023-01-23 更新2024-05-31 收录
下载链接:
https://github.com/nytud/HuCOLA
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含9076个匈牙利语句子,每个句子都由四个人工标注者进行标注,以确定其可接受性/语法性(0/1)。数据来源于三本语言学书籍,训练、验证和测试集的比例为80%、10%、10%。
This dataset comprises 9,076 Hungarian sentences, each annotated by four human annotators to determine their acceptability/grammaticality (0/1). The data is sourced from three linguistic books, with the training, validation, and test sets divided in the proportions of 80%, 10%, and 10%, respectively.
创建时间:
2022-01-10
原始信息汇总
数据集概述
数据集名称
HuCOLA - Hungarian Corpus of Linguistic Acceptability
数据集内容
- 句子数量:9,076句
- 句子来源:三本语言学书籍
- Kiefer Ferenc (szerk.) (1992), Strukturális magyar nyelvtan 1. Mondattan. Budapest, Akadémiai Kiadó.
- Alberti, Gábor and Laczkó, Tibor (eds) (2018), Syntax of Hungarian Nouns and Noun Phrases. I., II. Comprehensive grammar resources. Amsterdam University Press, Amsterdam.
- Katalin É. Kiss and Veronika Hegedűs (eds) (2021), Postpositions and Postpositional Phrases. Amsterdam: Amsterdam University Press.
- 标注方式:每句由四位人类标注者进行标注,最终标签由多数标注者决定。
- 标注内容:每个句子标注其可接受性/语法性(0/1)。
数据集划分
- 训练集:7,276句(80%)
- 验证集:900句(10%)
- 测试集:900句(10%)
数据格式
- 文件格式:JSON
- 键信息:
sent_id:句子唯一ID,包含分割信息(train_...、test_...、val_...)和整数。sent:句子内容。sent_label:句子标签,0或1,分别表示错误(不可接受,不合语法)或正确(可接受,合语法)。
评估方式
- 评估指标:Matthews Correlation Coefficient
- 测试集标签获取:需联系ligeti-nagy.noemi@nytud.hu或访问HuLU网站进行自动评估。
许可证
- 许可证类型:CC-BY-SA 4.0
引用信息
- 引用文献:Ligeti-Nagy, N., Ferenczi, G., Héja, E., Jelencsik-Mátyus, K., Laki, L. J., Vadász, N., Yang, Z. Gy. and Váradi, T. (2022) HuLU: magyar nyelvű benchmark adatbázis kiépítése a neurális nyelvmodellek kiértékelése céljából. In: Berend, G., Gosztolya, G. and Vincze, V. (eds), XVIII. Magyar Számítógépes Nyelvészeti Konferencia. Szeged, Szegedi Tudományegyetem, Informatikai Intézet. 431–446.
搜集汇总
数据集介绍

构建方式
匈牙利语语言可接受性语料库(HuCOLA)的构建过程严谨而系统。该数据集包含9076个句子,这些句子源自三本语言学著作,并由两位人类标注者进行初步收集。每个句子随后由四位标注者进行标注,最终标签由多数标注者的意见决定。数据集的训练集、验证集和测试集分别占80%、10%和10%,遵循了英语语言可接受性语料库(GLUE基准)的比例分配。
特点
HuCOLA数据集的特点在于其专注于匈牙利语的语言可接受性评估。每个句子都被明确标注为可接受(1)或不可接受(0),这种二元分类为语言模型的训练和评估提供了清晰的基准。数据集的句子来源广泛,涵盖了匈牙利语的不同语法结构,确保了数据的多样性和代表性。此外,数据集的标注过程严格遵循多数原则,确保了标签的准确性和一致性。
使用方法
HuCOLA数据集的使用方法简便而高效。数据集以JSON格式提供,每个句子包含唯一的`sent_id`、句子文本`sent`以及可接受性标签`sent_label`。用户可以通过访问HuLU网站进行自动评估,或联系数据集维护者获取测试集的标签。评估指标采用马修斯相关系数(Matthew's Correlation Coefficient),确保评估结果的科学性和可靠性。数据集的使用需遵循CC-BY-SA 4.0许可,并在使用时引用相关文献。
背景与挑战
背景概述
匈牙利语语言学可接受性语料库(Hungarian Corpus of Linguistic Acceptability, HuCOLA)是匈牙利语言理解评估基准工具包(HuLU)的重要组成部分,旨在为匈牙利语的语言学研究提供高质量的标注数据。该数据集由匈牙利科学院语言学研究所的研究团队于2022年创建,主要研究人员包括Noémi Ligeti-Nagy、Gergő Ferenczi等。数据集包含9076个句子,每个句子均标注了其可接受性或语法正确性(0/1),数据来源于三本语言学著作,并由四位人工标注者进行标注。HuCOLA的构建不仅为匈牙利语的语法研究提供了重要资源,还为自然语言处理模型的评估和优化提供了基准。
当前挑战
HuCOLA数据集在构建和应用过程中面临多重挑战。首先,语言学可接受性标注本身具有主观性,不同标注者可能对同一句子的语法正确性存在分歧,尽管采用了多数投票机制,但仍难以完全消除标注偏差。其次,匈牙利语作为一种形态复杂的语言,其语法结构多样且灵活,这为句子的可接受性判断增加了难度。此外,数据集的构建依赖于有限的语言学文献资源,可能导致数据覆盖范围不够全面。最后,尽管数据集已划分为训练集、验证集和测试集,但测试集的标签未公开,需通过特定渠道获取,这在一定程度上限制了模型的评估效率。
常用场景
经典使用场景
匈牙利语语言可接受性语料库(HuCOLA)主要用于自然语言处理领域中的语言模型评估和语法可接受性研究。该数据集通过标注句子的语法正确性,为研究者提供了一个标准化的基准,用于测试和比较不同模型在匈牙利语语法理解方面的表现。特别是在神经语言模型的训练和评估中,HuCOLA数据集为研究者提供了丰富的语料支持,帮助模型更好地理解和生成符合匈牙利语语法的句子。
解决学术问题
HuCOLA数据集解决了自然语言处理领域中一个关键问题,即如何准确评估语言模型对语法可接受性的理解能力。通过提供大量经过人工标注的匈牙利语句子,该数据集为研究者提供了一个可靠的基准,用于衡量模型在处理复杂语法结构时的表现。这不仅推动了匈牙利语自然语言处理技术的发展,还为其他低资源语言的语法研究提供了参考。
衍生相关工作
基于HuCOLA数据集,研究者们开发了多种匈牙利语自然语言处理工具和模型。例如,匈牙利语语言理解基准工具包(HuLU)便是该数据集的重要衍生成果之一。HuLU不仅整合了HuCOLA数据集,还提供了自动评估功能,帮助研究者更高效地进行模型测试和比较。此外,该数据集还激发了更多关于匈牙利语语法和语言模型的研究,推动了该领域的技术进步。
以上内容由遇见数据集搜集并总结生成



