five

classla/COPA-SR_lat

收藏
Hugging Face2023-11-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/classla/COPA-SR_lat
下载链接
链接失效反馈
官方服务:
资源简介:
COPA-SR_lat数据集是英文COPA数据集的塞尔维亚语翻译版本,并转换为拉丁字母。该数据集包含1000个前提,每个前提都有一个问题和两个选择,以及一个标签指示哪个选择更合理。数据集分为训练、验证和测试三个部分,分别包含400、100和500个实例。数据集的翻译由ReLDI Centre Belgrade完成。
提供机构:
classla
原始信息汇总

COPA-SR_lat

数据集概述

COPA-SR数据集(塞尔维亚语中的合理替代选择)是根据XCOPA数据集翻译方法论英语COPA数据集翻译并转写为拉丁字母的版本。

数据内容

数据集包含1,000个前提(例如:“我的身体在草地上投下了影子”),每个前提都有一个问题(“原因是什么?”或“结果是什么?”),以及两个选项(例如:“太阳正在升起”;“草被割了”),并有一个标签指示哪个选项在给定注释者或翻译者的情况下更合理(例如:“太阳正在升起”)。

数据格式

数据集遵循与克罗地亚COPA-HR数据集马其顿COPA-MK数据集相同的格式。数据被分为训练(400个实例)、验证(100个实例)和测试(500个实例)的JSONL文件。

数据集分割

  • 训练集:400个实例
  • 验证集:100个实例
  • 测试集:500个实例

翻译机构

数据集的翻译工作由ReLDI Centre Belgrade完成。

作者信息

  • Ljubešić, Nikola
  • Starović, Mirjana
  • Kuzman, Taja
  • Samardžić, Tanja

引用信息

@misc{11356/1708, title = {Choice of plausible alternatives dataset in Serbian {COPA}-{SR}}, author = {Ljube{v s}i{c}, Nikola and Starovi{c}, Mirjana and Kuzman, Taja and Samard{v z}i{c}, Tanja}, url = {http://hdl.handle.net/11356/1708}, note = {Slovenian language resource repository {CLARIN}.{SI}}, copyright = {Creative Commons - Attribution-{ShareAlike} 4.0 International ({CC} {BY}-{SA} 4.0)}, issn = {2820-4042}, year = {2022} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作