NYTK/HuCoPA
收藏Hugging Face2025-01-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/NYTK/HuCoPA
下载链接
链接失效反馈官方服务:
资源简介:
HuCoPA数据集是匈牙利语的可信替代选择语料库,也是匈牙利语言理解评估基准工具包(HuLU)的一部分。该数据集是通过翻译和重新注释原始的英文CoPA语料库(Roemmele et al., 2011)创建的。数据集支持的任务包括常识推理和问答。数据集结构包括数据实例、数据字段和数据分割。数据实例包括id、前提、问题、两个替代项和标签。数据集分为训练、验证和测试三个部分。数据集的创建过程包括初始数据收集和注释过程。数据集发布在BSD 2-Clause License下。
提供机构:
NYTK
原始信息汇总
数据集概述
数据集名称
- 名称: HuCoPA
- 别名: Hungarian Choice of Plausible Alternatives Corpus
数据集属性
- 语言: 匈牙利语(hu-HU)
- 许可证: BSD 2-Clause License
- 多语言性: 单语种
- 任务类别: 常识推理、问答
- 数据集大小: 未知
- 数据源: 扩展自其他数据集
数据集结构
- 数据实例: 每个实例包含id、前提、问题(cause或effect)、两个选项和标签(1或2)。
- 数据字段:
- id: 唯一标识,整数,范围1至1000。
- question: 问题类型,"cause"或"effect"。
- premise: 前提,一个句子。
- choice1: 第一个选项,一个句子。
- choice2: 第二个选项,一个句子。
- label: 更合理的选项编号(1或2)。
- 数据分割: 训练集(400个实例)、验证集(100个实例)、测试集(500个实例)。
数据集创建
- 源数据: 翻译自CoPA数据集,每个句子由人工翻译并由另一标注者检查和细化。
- 标注过程: 初始标签继承自CoPA数据集,每个实例由人工标注者标注,不匹配时手动校正并分配最终标签。
- 标注者: 翻译者为匈牙利语母语者且具有英语能力,标注者为具有语言学背景的大学生。
其他信息
- 人类性能: 测试集上的准确率为96%。
- 版权信息: 数据集遵循BSD 2-Clause License。
- 引用信息: 使用数据集时需引用Ligeti-Nagy等人(2022)和Roemmele等人(2011)的论文。
数据集使用注意事项
- 评估模型: 测试集标签未公开,需联系数据集负责人或访问HuLU网站进行自动评估。
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



