five

NYTK/HuCoPA

收藏
Hugging Face2025-01-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/NYTK/HuCoPA
下载链接
链接失效反馈
官方服务:
资源简介:
HuCoPA数据集是匈牙利语的可信替代选择语料库,也是匈牙利语言理解评估基准工具包(HuLU)的一部分。该数据集是通过翻译和重新注释原始的英文CoPA语料库(Roemmele et al., 2011)创建的。数据集支持的任务包括常识推理和问答。数据集结构包括数据实例、数据字段和数据分割。数据实例包括id、前提、问题、两个替代项和标签。数据集分为训练、验证和测试三个部分。数据集的创建过程包括初始数据收集和注释过程。数据集发布在BSD 2-Clause License下。
提供机构:
NYTK
原始信息汇总

数据集概述

数据集名称

  • 名称: HuCoPA
  • 别名: Hungarian Choice of Plausible Alternatives Corpus

数据集属性

  • 语言: 匈牙利语(hu-HU)
  • 许可证: BSD 2-Clause License
  • 多语言性: 单语种
  • 任务类别: 常识推理、问答
  • 数据集大小: 未知
  • 数据源: 扩展自其他数据集

数据集结构

  • 数据实例: 每个实例包含id、前提、问题(cause或effect)、两个选项和标签(1或2)。
  • 数据字段:
    • id: 唯一标识,整数,范围1至1000。
    • question: 问题类型,"cause"或"effect"。
    • premise: 前提,一个句子。
    • choice1: 第一个选项,一个句子。
    • choice2: 第二个选项,一个句子。
    • label: 更合理的选项编号(1或2)。
  • 数据分割: 训练集(400个实例)、验证集(100个实例)、测试集(500个实例)。

数据集创建

  • 源数据: 翻译自CoPA数据集,每个句子由人工翻译并由另一标注者检查和细化。
  • 标注过程: 初始标签继承自CoPA数据集,每个实例由人工标注者标注,不匹配时手动校正并分配最终标签。
  • 标注者: 翻译者为匈牙利语母语者且具有英语能力,标注者为具有语言学背景的大学生。

其他信息

  • 人类性能: 测试集上的准确率为96%。
  • 版权信息: 数据集遵循BSD 2-Clause License。
  • 引用信息: 使用数据集时需引用Ligeti-Nagy等人(2022)和Roemmele等人(2011)的论文。

数据集使用注意事项

  • 评估模型: 测试集标签未公开,需联系数据集负责人或访问HuLU网站进行自动评估。
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作