NYTK/HuCOLA
收藏数据集卡片 for HuCOLA
数据集描述
数据集摘要
HuCOLA 是匈牙利语言学可接受性语料库,也是匈牙利语言理解评估基准工具包 HuLU 的一部分。
支持的任务和排行榜
语言
该数据集仅包含匈牙利语,BCP-47 代码为 hu-HU。
数据集结构
数据实例
每个实例包含一个 id、一个句子和一个标签。
示例:
{"Sent_id": "dev_0", "Sent": "A földek eláradtak.", "Label": "0"}
数据字段
- Sent_id: 实例的唯一 id,整数范围在 1 到 1000 之间;
- Sent: 匈牙利语句子;
- label: 0 表示错误,1 表示正确句子。
数据分割
HuCOLA 包含三个分割:train、validation 和 test。
| 数据集分割 | 分割中的句子数量 | 分割比例 |
|---|---|---|
| train | 7276 | 80% |
| validation | 900 | 10% |
| test | 900 | 10% |
测试数据不包含标签。要评估模型,请联系我们,或在 HuLU 网站 上进行自动评估(该功能目前正在建设中)。评估指标是 Matthews 相关系数。
数据集创建
源数据
初始数据收集和规范化
数据由两个人类注释者从三本主要的匈牙利语言学书籍中收集:
- Kiefer Ferenc (ed.) (1992), Strukturális magyar nyelvtan 1. Mondattan. Budapest, Akadémiai Kiadó.
- Alberti, Gábor and Laczkó, Tibor (eds) (2018), Syntax of Hungarian Nouns and Noun Phrases. I., II. Comprehensive grammar resources. Amsterdam University Press, Amsterdam.
- Katalin É. Kiss and Veronika Hegedűs (eds) (2021), Postpositions and Postpositional Phrases. Amsterdam: Amsterdam University Press.
收集句子的过程部分遵循 Warstadt et. al (2018) 的描述。我们的过程指南可在 HuCOLA 仓库 中找到。
注释
注释过程
每个实例由 4 个人类注释者进行可接受性注释(参见 HuCOLA 仓库 中的注释指南)。
注释者是谁?
注释者是不同年龄段的母语匈牙利语者(20 至 67 岁),没有语言学背景。
附加信息
许可信息
HuCOLA 根据 CC-BY-SA 4.0 许可证发布。
引用信息
如果您使用此资源或其任何部分的文档,请引用:
@inproceedings{ligetinagy2022hulu, title={HuLU: magyar nyelvű benchmark adatbázis kiépítése a neurális nyelvmodellek kiértékelése céljából}, author={Ligeti-Nagy, N. and Ferenczi, G. and Héja, E. and Jelencsik-Mátyus, K. and Laki, L. J. and Vadász, N. and Yang, Z. Gy. and Váradi, T.}, booktitle={XVIII. Magyar Számítógépes Nyelvészeti Konferencia}, year={2022} }
贡献
感谢 lnnoemi 添加此数据集。



