five

tartuNLP/EstCOPA

收藏
Hugging Face2025-12-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/tartuNLP/EstCOPA
下载链接
链接失效反馈
官方服务:
资源简介:
EstCOPA是XCOPA的扩展版本,旨在进一步研究爱沙尼亚语在大型语言模型中的理解能力。它提供了两种新的爱沙尼亚语版本的训练、评估和测试数据集:一种是机器翻译的版本,另一种是手动后编辑的版本。

EstCOPA, an extended version of XCOPA, aims to further investigate the comprehension capabilities of the Estonian language in large language models. It provides two new Estonian versions of the training, evaluation, and test datasets: one is a machine-translated version, and the other is a manually post-edited version.
提供机构:
tartuNLP
原始信息汇总

EstCOPA数据集概述

数据集基本信息

  • 名称: EstCOPA
  • 语言: 爱沙尼亚语 (et)
  • 语言生成方式: 专家生成、机器生成
  • 许可证: CC-BY-4.0
  • 多语言性: 单语、翻译
  • 数据集大小: 小于1K

数据集描述

EstCOPA是XCOPA的扩展版本,旨在进一步研究大型语言模型对爱沙尼亚语的理解。该数据集提供了两个版本的训练、评估和测试数据集:

  1. 原始英语COPA的机器翻译(英语到爱沙尼亚语)版本。
  2. 同一机器翻译数据的专家手工校正版本。

数据集结构

数据集创建

  • 源数据: 基于原始英语COPA数据集的扩展。
  • 注释过程: 专家生成和机器生成。
  • 个人和敏感信息: 未提供详细信息。

使用注意事项

  • 社会影响: 未提供详细信息。
  • 偏见讨论: 未提供详细信息。
  • 其他已知限制: 未提供详细信息。

附加信息

  • 数据集创建者: 未提供详细信息。
  • 许可证信息: CC-BY-4.0。
  • 引用信息: 使用该数据集时,应引用Kuulmets等人在2022年发表的文章。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作