NYTK/HuCoPA

Name: NYTK/HuCoPA
Creator: NYTK
Published: 2025-01-22 09:38:18
License: 暂无描述

Hugging Face2025-01-22 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/NYTK/HuCoPA

下载链接

链接失效反馈

官方服务：

资源简介：

HuCoPA数据集是匈牙利语的可信替代选择语料库，也是匈牙利语言理解评估基准工具包（HuLU）的一部分。该数据集是通过翻译和重新注释原始的英文CoPA语料库（Roemmele et al., 2011）创建的。数据集支持的任务包括常识推理和问答。数据集结构包括数据实例、数据字段和数据分割。数据实例包括id、前提、问题、两个替代项和标签。数据集分为训练、验证和测试三个部分。数据集的创建过程包括初始数据收集和注释过程。数据集发布在BSD 2-Clause License下。

提供机构：

NYTK

原始信息汇总

数据集概述

数据集名称

名称: HuCoPA
别名: Hungarian Choice of Plausible Alternatives Corpus

数据集属性

语言: 匈牙利语（hu-HU）
许可证: BSD 2-Clause License
多语言性: 单语种
任务类别: 常识推理、问答
数据集大小: 未知
数据源: 扩展自其他数据集

数据集结构

数据实例: 每个实例包含id、前提、问题（cause或effect）、两个选项和标签（1或2）。
数据字段:
- id: 唯一标识，整数，范围1至1000。
- question: 问题类型，"cause"或"effect"。
- premise: 前提，一个句子。
- choice1: 第一个选项，一个句子。
- choice2: 第二个选项，一个句子。
- label: 更合理的选项编号（1或2）。
数据分割: 训练集（400个实例）、验证集（100个实例）、测试集（500个实例）。

数据集创建

源数据: 翻译自CoPA数据集，每个句子由人工翻译并由另一标注者检查和细化。
标注过程: 初始标签继承自CoPA数据集，每个实例由人工标注者标注，不匹配时手动校正并分配最终标签。
标注者: 翻译者为匈牙利语母语者且具有英语能力，标注者为具有语言学背景的大学生。

其他信息

人类性能: 测试集上的准确率为96%。
版权信息: 数据集遵循BSD 2-Clause License。
引用信息: 使用数据集时需引用Ligeti-Nagy等人（2022）和Roemmele等人（2011）的论文。

数据集使用注意事项

评估模型: 测试集标签未公开，需联系数据集负责人或访问HuLU网站进行自动评估。

搜集汇总

数据集介绍

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集