classla/COPA-SR

Name: classla/COPA-SR
Creator: classla
Published: 2023-11-02 09:22:25
License: 暂无描述

Hugging Face2023-11-02 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/classla/COPA-SR

下载链接

链接失效反馈

官方服务：

资源简介：

COPA-SR数据集是英文COPA数据集的塞尔维亚语翻译版本，遵循XCOPA数据集翻译方法。该数据集包含1000个前提，每个前提配有一个问题和两个选择，其中一个选择被标注为更合理的答案。数据集分为训练、验证和测试三个部分，分别包含400、100和500个实例。数据集的翻译由ReLDI Centre Belgrade完成。

The COPA-SR dataset is the Serbian translation of the English COPA dataset, following the translation methodology of the XCOPA dataset. This dataset includes 1000 premises, each paired with a question and two options, where one option is annotated as the more plausible answer. The dataset is split into training, validation, and test sets, containing 400, 100, and 500 instances respectively. The translation of this dataset was completed by the ReLDI Centre Belgrade.

提供机构：

classla

原始信息汇总

COPA-SR 数据集概述

数据集描述

COPA-SR 数据集是一个塞尔维亚语版本的 Choice of Plausible Alternatives (COPA) 数据集，由 ReLDI Centre Belgrade 翻译自英语 COPA 数据集，遵循 XCOPA 数据集翻译方法论。

数据集内容

语言：塞尔维亚语
任务类别：文本分类
数据规模：小于1000条数据
数据格式：JSONL 文件
数据划分：
- 训练集：400 条数据
- 验证集：100 条数据
- 测试集：500 条数据

数据集结构

数据集包含 1,000 个前提（例如：“My body cast a shadow over the grass”），每个前提对应一个问题（“What is the cause?” 或 “What happened as a result?”），以及两个选项（例如：“The sun was rising” 和 “The grass was cut”），并有一个标签指示哪个选项更合理。

数据文件

训练集：train.jsonl
验证集：val.jsonl
测试集：test.jsonl

作者信息

Ljubešić, Nikola
Starović, Mirjana
Kuzman, Taja
Samardžić, Tanja

引用信息

@misc{11356/1708, title = {Choice of plausible alternatives dataset in Serbian {COPA}-{SR}}, author = {Ljube{v s}i{c}, Nikola and Starovi{c}, Mirjana and Kuzman, Taja and Samard{v z}i{c}, Tanja}, url = {http://hdl.handle.net/11356/1708}, note = {Slovenian language resource repository {CLARIN}.{SI}}, copyright = {Creative Commons - Attribution-{ShareAlike} 4.0 International ({CC} {BY}-{SA} 4.0)}, issn = {2820-4042}, year = {2022} }

搜集汇总

数据集介绍

构建方式

COPA-SR数据集是遵循XCOPA翻译方法论，对英文COPA数据集进行塞尔维亚语翻译的成果。该数据集包含1000个前提句，每个句子对应一个问题及两个选择项，通过标注或翻译确定哪个选择项更为合理。数据集分为训练、验证和测试三个部分，分别包含400、100和500个实例，并以JSONL格式存储。

特点

COPA-SR数据集采用塞尔维亚语，保持了与Croatian COPA-HR和Macedonian COPA-MK数据集相同的格式，便于跨语言比较研究。其结构化设计使得数据易于处理，且通过Creative Commons BY-SA 4.0协议发布，保证了数据的开放性和共享性。

使用方法

使用COPA-SR数据集时，用户可以访问训练、验证和测试数据，这些数据均以JSONL格式存储。用户可以根据需要，将这些数据加载到相应的数据处理框架中，进行文本分类任务的训练和评估。数据集的规范化和细致的标注，为研究提供了便利，有助于推动塞尔维亚语的自然语言处理技术发展。

背景与挑战

背景概述

在自然语言处理领域，推理任务是对模型理解能力的重要考验。COPA-SR数据集，即塞尔维亚语中的选择可能性数据集，是在2022年由Ljubešić, Nikola等研究人员创建，并由ReLDI Centre Belgrade翻译。该数据集是对英文COPA数据集的塞尔维亚语翻译，遵循XCOPA数据集翻译方法，旨在为塞尔维亚语提供一种评估推理能力的标准资源。COPA-SR数据集包含1000个前提句子，每个句子附带一个问题及两个选择，以及一个标签来指示哪个选择更为合理。该数据集的构建，为塞尔维亚语的自然语言推理研究提供了宝贵的数据资源，并在学术界产生了广泛的影响。

当前挑战

COPA-SR数据集在构建过程中遇到了跨语言翻译一致性的挑战，确保翻译后的数据集能够保持原数据集的语义和推理特性。此外，数据集规模的限制（小于1000个实例）也对其在推理任务中的泛化能力提出了挑战。研究者在使用该数据集时，还需面对如何准确评估模型在塞尔维亚语推理任务上的性能问题，这要求研究人员在设计评估指标时，需考虑到语言特有的表达习惯和推理模式。

常用场景

经典使用场景

在自然语言处理领域，尤其是文本分类任务中，COPA-SR数据集的经典使用场景在于评估模型对塞尔维亚语中合理替代选择的判断能力。该数据集通过提供前提句、问题以及两种选择，要求模型判断哪种选择在给定情境下更为合理，从而检验模型对语境理解和推理的能力。

解决学术问题

COPA-SR数据集解决了学术研究中如何衡量机器学习模型对斯拉夫语系语言，特别是塞尔维亚语语境理解和推理能力的问题。它为研究者提供了一个标准化的评测手段，有助于推动跨语言的自然语言理解技术的发展和应用。

衍生相关工作

COPA-SR数据集的衍生工作包括了对其他斯拉夫语系语言的类似数据集的创建，以及基于该数据集的性能评估和模型改进研究。这些相关工作不仅促进了多语言自然语言处理技术的进步，也为跨语言模型评估提供了重要基准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集