five

nbel/CatCoLA

收藏
Hugging Face2024-06-05 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/nbel/CatCoLA
下载链接
链接失效反馈
官方服务:
资源简介:
CatCoLA是加泰罗尼亚语的语言可接受性语料库,旨在支持加泰罗尼亚语言理解基准(CLUB)的评估和比较。该数据集包含10,443个句子及其可接受性判断,这些句子来自著名的加泰罗尼亚参考语法。此外,所有句子都标注了其所代表的语言现象类别。CatCoLA遵循英语CoLA的设计,支持将句子分类为可接受或不可接受的任务。数据集分为两个子集:一个包含10,189个句子的域内子集(InDomain)和一个包含254个句子的域外子集(OutDomain)。域内子集进一步分为训练集、开发集和测试集。数据集以CC BY-NC-SA 4.0许可证发布,并可从https://github.com/nuriabel/LUTEST免费获取。

CatCoLA是加泰罗尼亚语的语言可接受性语料库,旨在支持加泰罗尼亚语言理解基准(CLUB)的评估和比较。该数据集包含10,443个句子及其可接受性判断,这些句子来自著名的加泰罗尼亚参考语法。此外,所有句子都标注了其所代表的语言现象类别。CatCoLA遵循英语CoLA的设计,支持将句子分类为可接受或不可接受的任务。数据集分为两个子集:一个包含10,189个句子的域内子集(InDomain)和一个包含254个句子的域外子集(OutDomain)。域内子集进一步分为训练集、开发集和测试集。数据集以CC BY-NC-SA 4.0许可证发布,并可从https://github.com/nuriabel/LUTEST免费获取。
提供机构:
nbel
原始信息汇总

数据集概述

1. 数据集标题

  • 名称: CatCoLA - Catalan Corpus of Linguistic Acceptability

2. 数据集语言

  • 语言: 加泰罗尼亚语(Catalan)

3. 数据集描述

  • 摘要: CatCoLA是一个用于评估加泰罗尼亚语文本训练的语言模型能力的语料库。该数据集包含10,443个句子及其可接受性判断,这些句子来源于知名的加泰罗尼亚语参考语法。所有句子均被标注了其所代表的语言现象类别。
  • 关键词: 语言模型评估, 语料库, 加泰罗尼亚语
  • 数据收集日期: 2023年
  • 发布日期: 2024年5月30日
  • 地理数据收集位置: 西班牙

4. 数据集授权

  • 许可证: CC-BY-SA 4.0, 即Creative Commons Attribution 4.0 International License
  • 数据集DOI: doi:10.34810/data1393

5. 数据集版本与来源

  • 最后修改日期: 2024年5月19日
  • 数据来源: 数据集中的例子复制自受版权保护的出版物,根据西班牙法律,复制的内容少于原作的10%,且复制数量符合研究目的。

6. 数据集结构

  • 数据集划分: 分为两个子集:
    • InDomain: 包含10,189个句子,分为训练集(8151句)、开发集(1018句)和测试集(1020句)。
    • OutDomain: 包含254个句子。
  • 数据格式: 数据以.tsv格式存储,每个子集的文件结构包括唯一ID、句子来源、可接受性判断标签、来源注释、人类注释、句子内容及所属的语言现象类别。

7. 数据集使用与引用

  • 引用文献: 使用该数据集时,应引用以下文献:
    • Alex Warstadt, Amanpreet Singh, and Samuel R. Bowman. 2018. Neural network acceptability judgments. arXiv preprint arXiv:1805.12471.
    • Núria Bel, Marta Punsola, Valle Ruíz-Fernández, 2024, EsCoLA: Spanish Corpus of Linguistic Acceptability. Joint International Conference on Computational Linguistics, Language Resources and Evaluation LREC-COLING 2024. Torino. Italy.
    • Núria Bel, Marta Punsola, Valle Ruiz-Fernández, 2024, CatCoLA: Catalan Corpus of Linguistic Acceptability. Procesamiento del Lenguaje Natural 73, 2024.
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作