nbel/CatCoLA

Name: nbel/CatCoLA
Creator: nbel
Published: 2024-06-05 09:46:35
License: 暂无描述

Hugging Face2024-06-05 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/nbel/CatCoLA

下载链接

链接失效反馈

官方服务：

资源简介：

CatCoLA是加泰罗尼亚语的语言可接受性语料库，旨在支持加泰罗尼亚语言理解基准（CLUB）的评估和比较。该数据集包含10,443个句子及其可接受性判断，这些句子来自著名的加泰罗尼亚参考语法。此外，所有句子都标注了其所代表的语言现象类别。CatCoLA遵循英语CoLA的设计，支持将句子分类为可接受或不可接受的任务。数据集分为两个子集：一个包含10,189个句子的域内子集（InDomain）和一个包含254个句子的域外子集（OutDomain）。域内子集进一步分为训练集、开发集和测试集。数据集以CC BY-NC-SA 4.0许可证发布，并可从https://github.com/nuriabel/LUTEST免费获取。

提供机构：

nbel

原始信息汇总

数据集概述

1. 数据集标题

名称: CatCoLA - Catalan Corpus of Linguistic Acceptability

2. 数据集语言

语言: 加泰罗尼亚语（Catalan）

3. 数据集描述

摘要: CatCoLA是一个用于评估加泰罗尼亚语文本训练的语言模型能力的语料库。该数据集包含10,443个句子及其可接受性判断，这些句子来源于知名的加泰罗尼亚语参考语法。所有句子均被标注了其所代表的语言现象类别。
关键词: 语言模型评估, 语料库, 加泰罗尼亚语
数据收集日期: 2023年
发布日期: 2024年5月30日
地理数据收集位置: 西班牙

4. 数据集授权

许可证: CC-BY-SA 4.0, 即Creative Commons Attribution 4.0 International License
数据集DOI: doi:10.34810/data1393

5. 数据集版本与来源

最后修改日期: 2024年5月19日
数据来源: 数据集中的例子复制自受版权保护的出版物，根据西班牙法律，复制的内容少于原作的10%，且复制数量符合研究目的。

6. 数据集结构

数据集划分: 分为两个子集：
- InDomain: 包含10,189个句子，分为训练集（8151句）、开发集（1018句）和测试集（1020句）。
- OutDomain: 包含254个句子。
数据格式: 数据以.tsv格式存储，每个子集的文件结构包括唯一ID、句子来源、可接受性判断标签、来源注释、人类注释、句子内容及所属的语言现象类别。

7. 数据集使用与引用

引用文献: 使用该数据集时，应引用以下文献：
- Alex Warstadt, Amanpreet Singh, and Samuel R. Bowman. 2018. Neural network acceptability judgments. arXiv preprint arXiv:1805.12471.
- Núria Bel, Marta Punsola, Valle Ruíz-Fernández, 2024, EsCoLA: Spanish Corpus of Linguistic Acceptability. Joint International Conference on Computational Linguistics, Language Resources and Evaluation LREC-COLING 2024. Torino. Italy.
- Núria Bel, Marta Punsola, Valle Ruiz-Fernández, 2024, CatCoLA: Catalan Corpus of Linguistic Acceptability. Procesamiento del Lenguaje Natural 73, 2024.

5,000+

优质数据集

54 个

任务类型

进入经典数据集