five

NYTK/HuCOLA

收藏
Hugging Face2025-01-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/NYTK/HuCOLA
下载链接
链接失效反馈
官方服务:
资源简介:
HuCOLA(匈牙利语言可接受性语料库)是一个用于评估神经语言模型的数据集,包含匈牙利语句的可接受性标注。该数据集由两部分组成:一部分是从三本主要的匈牙利语言学书籍中收集的句子,另一部分是由四名母语为匈牙利语的人对这些句子的可接受性进行注释。数据集分为训练集、验证集和测试集,分别占总数据量的80%、10%和10%。

HuCOLA (Hungarian Corpus of Linguistic Acceptability) is a dataset for evaluating neural language models, containing acceptability annotations of Hungarian sentences. The dataset consists of sentences collected from three main Hungarian linguistic books and annotations of their acceptability by four native Hungarian speakers. The dataset is split into training, validation, and test sets, accounting for 80%, 10%, and 10% of the total data volume, respectively.
提供机构:
NYTK
原始信息汇总

数据集卡片 for HuCOLA

数据集描述

数据集摘要

HuCOLA 是匈牙利语言学可接受性语料库,也是匈牙利语言理解评估基准工具包 HuLU 的一部分。

支持的任务和排行榜

语言

该数据集仅包含匈牙利语,BCP-47 代码为 hu-HU。

数据集结构

数据实例

每个实例包含一个 id、一个句子和一个标签。

示例:

{"Sent_id": "dev_0", "Sent": "A földek eláradtak.", "Label": "0"}

数据字段

  • Sent_id: 实例的唯一 id,整数范围在 1 到 1000 之间;
  • Sent: 匈牙利语句子;
  • label: 0 表示错误,1 表示正确句子。

数据分割

HuCOLA 包含三个分割:trainvalidationtest

数据集分割 分割中的句子数量 分割比例
train 7276 80%
validation 900 10%
test 900 10%

测试数据不包含标签。要评估模型,请联系我们,或在 HuLU 网站 上进行自动评估(该功能目前正在建设中)。评估指标是 Matthews 相关系数。

数据集创建

源数据

初始数据收集和规范化

数据由两个人类注释者从三本主要的匈牙利语言学书籍中收集:

  • Kiefer Ferenc (ed.) (1992), Strukturális magyar nyelvtan 1. Mondattan. Budapest, Akadémiai Kiadó.
  • Alberti, Gábor and Laczkó, Tibor (eds) (2018), Syntax of Hungarian Nouns and Noun Phrases. I., II. Comprehensive grammar resources. Amsterdam University Press, Amsterdam.
  • Katalin É. Kiss and Veronika Hegedűs (eds) (2021), Postpositions and Postpositional Phrases. Amsterdam: Amsterdam University Press.

收集句子的过程部分遵循 Warstadt et. al (2018) 的描述。我们的过程指南可在 HuCOLA 仓库 中找到。

注释

注释过程

每个实例由 4 个人类注释者进行可接受性注释(参见 HuCOLA 仓库 中的注释指南)。

注释者是谁?

注释者是不同年龄段的母语匈牙利语者(20 至 67 岁),没有语言学背景。

附加信息

许可信息

HuCOLA 根据 CC-BY-SA 4.0 许可证发布。

引用信息

如果您使用此资源或其任何部分的文档,请引用:

@inproceedings{ligetinagy2022hulu, title={HuLU: magyar nyelvű benchmark adatbázis kiépítése a neurális nyelvmodellek kiértékelése céljából}, author={Ligeti-Nagy, N. and Ferenczi, G. and Héja, E. and Jelencsik-Mátyus, K. and Laki, L. J. and Vadász, N. and Yang, Z. Gy. and Váradi, T.}, booktitle={XVIII. Magyar Számítógépes Nyelvészeti Konferencia}, year={2022} }

贡献

感谢 lnnoemi 添加此数据集。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作