projecte-aina/COPA-ca

Name: projecte-aina/COPA-ca
Creator: projecte-aina
Published: 2024-10-07 12:01:50
License: 暂无描述

Hugging Face2024-10-07 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/projecte-aina/COPA-ca

下载链接

链接失效反馈

官方服务：

资源简介：

COPA-ca数据集（加泰罗尼亚语中的合理选择）是英语COPA数据集的专业加泰罗尼亚语翻译，由BSC LangTech Unit委托制作。该数据集包含1000个前提，每个前提都配有一个问题和两个选择，标签编码了哪个选择在给定注释者的情况下更合理。数据集分为400个训练样本、100个验证样本和500个测试样本。它包括以下特征：premise、choice1、choice2、question、label、idx、changed。该作品采用<a rel="license" href="https://creativecommons.org/licenses/by-sa/4.0/">署名-相同方式共享 4.0 国际许可协议</a>进行许可。

The COPA-ca dataset (Choice of plausible alternatives in Catalan) is a professional translation of the English COPA dataset into Catalan, commissioned by BSC LangTech Unit. The dataset consists of 1000 premises, each given a question and two choices with a label encoding which of the choices is more plausible given the annotator. The dataset is split into 400 training samples, 100 validation samples, and 500 test samples. It includes the following features: premise, choice1, choice2, question, label, idx, changed. This work is licensed under a <a rel="license" href="https://creativecommons.org/licenses/by-sa/4.0/">Attribution-ShareAlike 4.0 International License</a>.

提供机构：

projecte-aina

原始信息汇总

数据集概述

数据集描述

数据集总结

名称: COPA-ca
描述: COPA-ca 数据集是英文 COPA 数据集的专业翻译版本，专门翻译成加泰罗尼亚语。该数据集包含1000个前提，每个前提附有一个问题和两个选择，标记了哪个选择更符合注释者的判断。
数据集分割: 训练集400个样本，验证集100个样本，测试集500个样本。
特征: 包括premise, choice1, choice2, question, label, idx, changed。
许可证: 知识共享署名-相同方式共享4.0国际许可（CC-BY-SA-4.0）。

支持的任务和排行榜

任务: 常识推理，语言模型

语言

语言: 加泰罗尼亚语 (ca-ES)

数据集结构

数据实例

文件: 三个JSON文件，分别对应训练集、验证集和测试集。

示例

json { "premise": "El meu cos va dibuixar una ombra damunt lherba.", "choice1": "El sol estava sortint.", "choice2": "Lherba estava tallada.", "question": "cause", "label": 0, "idx": 1, "changed": false }

数据字段

premise: 字符串类型
choice1: 字符串类型
choice2: 字符串类型
question: 字符串类型
label: 整数类型
idx: 整数类型
changed: 布尔类型

数据分割

训练集: 400个样本
验证集: 100个样本
测试集: 500个样本

数据集创建

数据集理由

目的: 为加泰罗尼亚语这种低资源语言的语言模型开发做出贡献。

源数据

来源: 英文 COPA 数据集
翻译: 由BSC LangTech Unit委托专业翻译完成

注释

注释者: 专业翻译人员
注释过程: 无额外注释，仅为翻译

个人信息和敏感信息

内容: 不包含任何个人信息或敏感信息

使用数据集的考虑

数据集的社会影响

期望影响: 促进加泰罗尼亚语语言模型的发展

数据集的偏见讨论

讨论: 未提供

其他已知限制

限制: 未提供

附加信息

数据集管理者

管理者: 巴塞罗那超级计算中心语言技术部门

许可证信息

许可证: 知识共享署名-相同方式共享4.0国际许可（CC-BY-SA-4.0）

引用信息

引用: DOI

搜集汇总

数据集介绍

构建方式

COPA-ca数据集是加泰罗尼亚语中一项重要的自然语言理解资源，其构建基于对英文COPA数据集的专业翻译，由巴塞罗那超级计算中心语言技术部门在Aina项目框架内委托完成。该数据集包含1000个前提，每个前提配有一个问题及两个候选答案，并由标注者指定其中更为合理的选项。数据被划分为训练集（400条）、验证集（100条）和测试集（500条），以JSON格式存储，确保结构清晰、易于处理。翻译工作由专业译者执行，保留了原始数据的因果推理与常识推理特性，旨在为低资源语言加泰罗尼亚语的语言模型开发提供高质量基准。

特点

该数据集以因果推理与文本蕴含为核心任务，聚焦于常识性推理能力评估。每个样本包含前提（premise）、两个候选选项（choice1与choice2）、问题类型（question，如原因或结果）、正确标签（label）、唯一索引（idx）及变更标记（changed）。数据规模适中，总计1000条，分布均衡，其中测试集占比最大（500条），便于模型泛化能力验证。所有文本均为加泰罗尼亚语，标注来源可靠，且不包含个人敏感信息，确保了数据的中立性与安全性。其结构简洁，字段类型明确，为多任务学习与模型微调提供了灵活支持。

使用方法

使用COPA-ca数据集时，可通过Hugging Face Datasets库直接加载，指定配置为'default'并选择所需分片（如'train'、'validation'或'test'）。数据以JSON Lines格式提供，每条记录包含前提与选项字符串，模型需根据问题类型（如'cause'或'effect'）从两个候选中选择更合理的答案。典型应用场景包括微调预训练语言模型以提升因果推理能力，或作为基准评估加泰罗尼亚语模型的常识理解水平。建议将标签作为监督信号，采用交叉熵损失函数进行训练，并利用验证集调整超参数，最终在测试集上报告准确率等指标。

背景与挑战

背景概述

COPA-ca数据集是巴塞罗那超级计算中心语言技术单元于2023年创建的专业加泰罗尼亚语翻译版本，源自英文COPA（Choice of Plausible Alternatives）数据集。该数据集聚焦于常识因果推理任务，包含1000个前提句，每个前提配备两个候选选项和一个标注了合理答案的标签，旨在评估模型在自然语言理解中对因果关系的推断能力。作为Projecte AINA项目的重要组成部分，COPA-ca致力于弥补加泰罗尼亚语这一中低资源语言在自然语言处理领域的资源匮乏，为加泰罗尼亚语语言模型的开发与评估提供了关键的基准测试平台，推动了该语言在人工智能领域的平等发展。

当前挑战

COPA-ca所面临的挑战首先体现在因果推理这一领域问题的复杂性上，模型需从多义、歧义的自然语言表达中精准识别事件间的因果关联，这对常识知识的编码与推理能力提出了极高要求。其次，在数据集构建过程中，专业翻译团队需确保英文原版COPA中蕴含的文化特定常识与因果逻辑能够准确、自然地迁移至加泰罗尼亚语语境，避免因语言差异导致的语义失真或合理性偏移。此外，作为中低资源语言数据集，其仅包含1000个样本的规模限制了模型训练的充分性，如何在数据稀缺条件下实现可靠的泛化性能是另一核心挑战。

常用场景

经典使用场景

COPA-ca数据集作为加泰罗尼亚语中因果推理与常识推理的经典基准，广泛应用于自然语言理解领域。该数据集通过提供前提句与两个候选选项，要求模型判断哪一选项更合理，从而评估模型对事件因果关系的理解能力。研究者常将其用于训练和评估预训练语言模型在低资源语言上的常识推理性能，特别是在因果推理和文本蕴含任务中。其简洁的二元选择结构使得该数据集成为衡量模型语义理解与逻辑推断能力的标准化测试平台。

解决学术问题

该数据集有效解决了加泰罗尼亚语等低资源语言在常识推理与因果推理研究中的数据匮乏问题。学术研究中，它填补了非英语语言在因果推理评估方面的空白，为跨语言迁移学习、多语言模型训练提供了关键评测资源。通过提供专业翻译的标准化数据，COPA-ca有助于探究模型在低资源语言上的推理能力与英语之间的差异，推动语言无关的推理机制研究。其发布促进了低资源语言自然语言处理领域的公平性与多样性发展。

衍生相关工作

基于COPA-ca数据集，衍生了一系列加泰罗尼亚语自然语言理解研究。例如，BSC LangTech Unit在Projecte AINA框架下，将其用于训练和评估加泰罗尼亚语预训练模型（如BERT-ca），并探索因果推理任务中的迁移学习策略。此外，该数据集被纳入多语言常识推理评测体系，与英文COPA及其他语言版本对比，推动了跨语言推理能力的研究。相关成果在LREC-COLING 2024等会议发表，为低资源语言模型评估提供了重要参考基准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集