tartuNLP/EstCOPA

Name: tartuNLP/EstCOPA
Creator: tartuNLP
Published: 2025-12-01 18:55:22
License: 暂无描述

Hugging Face2025-12-01 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/tartuNLP/EstCOPA

下载链接

链接失效反馈

官方服务：

资源简介：

EstCOPA是XCOPA的扩展版本，旨在进一步研究爱沙尼亚语在大型语言模型中的理解能力。它提供了两种新的爱沙尼亚语版本的训练、评估和测试数据集：一种是机器翻译的版本，另一种是手动后编辑的版本。

EstCOPA, an extended version of XCOPA, aims to further investigate the comprehension capabilities of the Estonian language in large language models. It provides two new Estonian versions of the training, evaluation, and test datasets: one is a machine-translated version, and the other is a manually post-edited version.

提供机构：

tartuNLP

原始信息汇总

EstCOPA数据集概述

数据集基本信息

名称: EstCOPA
语言: 爱沙尼亚语 (et)
语言生成方式: 专家生成、机器生成
许可证: CC-BY-4.0
多语言性: 单语、翻译
数据集大小: 小于1K

数据集描述

EstCOPA是XCOPA的扩展版本，旨在进一步研究大型语言模型对爱沙尼亚语的理解。该数据集提供了两个版本的训练、评估和测试数据集：

原始英语COPA的机器翻译（英语到爱沙尼亚语）版本。
同一机器翻译数据的专家手工校正版本。

数据集结构

数据集创建

源数据: 基于原始英语COPA数据集的扩展。
注释过程: 专家生成和机器生成。
个人和敏感信息: 未提供详细信息。

使用注意事项

社会影响: 未提供详细信息。
偏见讨论: 未提供详细信息。
其他已知限制: 未提供详细信息。

附加信息

数据集创建者: 未提供详细信息。
许可证信息: CC-BY-4.0。
引用信息: 使用该数据集时，应引用Kuulmets等人在2022年发表的文章。

5,000+

优质数据集

54 个

任务类型

进入经典数据集