nbel/CatCoLA
收藏Hugging Face2024-06-05 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/nbel/CatCoLA
下载链接
链接失效反馈官方服务:
资源简介:
CatCoLA是加泰罗尼亚语的语言可接受性语料库,旨在支持加泰罗尼亚语言理解基准(CLUB)的评估和比较。该数据集包含10,443个句子及其可接受性判断,这些句子来自著名的加泰罗尼亚参考语法。此外,所有句子都标注了其所代表的语言现象类别。CatCoLA遵循英语CoLA的设计,支持将句子分类为可接受或不可接受的任务。数据集分为两个子集:一个包含10,189个句子的域内子集(InDomain)和一个包含254个句子的域外子集(OutDomain)。域内子集进一步分为训练集、开发集和测试集。数据集以CC BY-NC-SA 4.0许可证发布,并可从https://github.com/nuriabel/LUTEST免费获取。
CatCoLA是加泰罗尼亚语的语言可接受性语料库,旨在支持加泰罗尼亚语言理解基准(CLUB)的评估和比较。该数据集包含10,443个句子及其可接受性判断,这些句子来自著名的加泰罗尼亚参考语法。此外,所有句子都标注了其所代表的语言现象类别。CatCoLA遵循英语CoLA的设计,支持将句子分类为可接受或不可接受的任务。数据集分为两个子集:一个包含10,189个句子的域内子集(InDomain)和一个包含254个句子的域外子集(OutDomain)。域内子集进一步分为训练集、开发集和测试集。数据集以CC BY-NC-SA 4.0许可证发布,并可从https://github.com/nuriabel/LUTEST免费获取。
提供机构:
nbel
原始信息汇总
数据集概述
1. 数据集标题
- 名称: CatCoLA - Catalan Corpus of Linguistic Acceptability
2. 数据集语言
- 语言: 加泰罗尼亚语(Catalan)
3. 数据集描述
- 摘要: CatCoLA是一个用于评估加泰罗尼亚语文本训练的语言模型能力的语料库。该数据集包含10,443个句子及其可接受性判断,这些句子来源于知名的加泰罗尼亚语参考语法。所有句子均被标注了其所代表的语言现象类别。
- 关键词: 语言模型评估, 语料库, 加泰罗尼亚语
- 数据收集日期: 2023年
- 发布日期: 2024年5月30日
- 地理数据收集位置: 西班牙
4. 数据集授权
- 许可证: CC-BY-SA 4.0, 即Creative Commons Attribution 4.0 International License
- 数据集DOI: doi:10.34810/data1393
5. 数据集版本与来源
- 最后修改日期: 2024年5月19日
- 数据来源: 数据集中的例子复制自受版权保护的出版物,根据西班牙法律,复制的内容少于原作的10%,且复制数量符合研究目的。
6. 数据集结构
- 数据集划分: 分为两个子集:
- InDomain: 包含10,189个句子,分为训练集(8151句)、开发集(1018句)和测试集(1020句)。
- OutDomain: 包含254个句子。
- 数据格式: 数据以.tsv格式存储,每个子集的文件结构包括唯一ID、句子来源、可接受性判断标签、来源注释、人类注释、句子内容及所属的语言现象类别。
7. 数据集使用与引用
- 引用文献: 使用该数据集时,应引用以下文献:
- Alex Warstadt, Amanpreet Singh, and Samuel R. Bowman. 2018. Neural network acceptability judgments. arXiv preprint arXiv:1805.12471.
- Núria Bel, Marta Punsola, Valle Ruíz-Fernández, 2024, EsCoLA: Spanish Corpus of Linguistic Acceptability. Joint International Conference on Computational Linguistics, Language Resources and Evaluation LREC-COLING 2024. Torino. Italy.
- Núria Bel, Marta Punsola, Valle Ruiz-Fernández, 2024, CatCoLA: Catalan Corpus of Linguistic Acceptability. Procesamiento del Lenguaje Natural 73, 2024.



