nbel/EsCoLA

Name: nbel/EsCoLA
Creator: nbel
Published: 2024-06-21 14:11:40
License: 暂无描述

Hugging Face2024-06-21 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/nbel/EsCoLA

下载链接

链接失效反馈

官方服务：

资源简介：

西班牙语语言可接受性语料库（EsCoLA）包含11,174个句子，这些句子来自语言学文献，并由原作者进行了二元注释。数据集分为in-domain和out-domain两个子集，in-domain子集包含10,567个句子，out-domain子集包含607个句子。in-domain子集进一步分为训练集（8454个句子）、开发集（1053个句子）和测试集（1060个句子），而out-domain子集分为开发集和测试集。数据格式为TSV文件，包含多个列，如唯一ID、句子来源、可接受性判断标签、人类注释、句子内容、语言现象类别等。数据集经过手动注释，涵盖了14种语言现象，特别是西班牙语特有的6种现象。数据集的创建过程涉及从已发表的作品中复制句子，并确保遵守版权法。

提供机构：

nbel

原始信息汇总

数据集概述

数据集名称

EsCoLA: Spanish Corpus of Linguistic Acceptability

数据集语言

西班牙语（es）

数据集内容

总句子数：11,174句
数据集划分：
- InDomain：10,567句
  - train：8,454句
  - dev：1,053句
  - test：1,060句
- OutDomain：607句
  - dev/test：具体数量未公开

数据集格式

InDomain：每行包含11个以制表符分隔的列，包括唯一ID、来源、接受度判断标签、来源注释、人类注释、注释中位数、句子内容、语言现象类别和所属分割。
OutDomain：每行包含6个以制表符分隔的列，包括唯一ID、来源、接受度判断标签、来源注释、句子内容和语言现象类别。

数据集来源

InDomain：Demonte and Bosque (1999)
OutDomain：RAE (2009), Palencia and Aragonés (2007), Díaz and Yagüe (2019)

数据集注释

手动注释了14种语言现象，包括简单、谓语、附加语、论元类型、论元交替、约束代词、Wh现象、补语从句、情态、否定、迂说和助动词、不定式嵌入VP和指称现象、复杂NP和AP、S-语法、限定词、量词、比较和最高级构造、西班牙语现象。

许可证

CC-BY 4.0

下载信息

InDomain train/dev和人类注释：可从https://github.com/nuriabel/LUTEST/下载
OutDomain数据集和InDomain测试数据：需联系nuria.bel@upf.edu获取

引用信息

使用本数据集时，请引用以下文献：
- Alex Warstadt, Amanpreet Singh, and Samuel R. Bowman. 2018. Neural network acceptability judgments. arXiv preprint arXiv:1805.12471.
- Núria Bel, Marta Punsola, Valle Ruiz-Fernández, 2024, EsCoLA: Spanish Corpus of Linguistic Acceptability. Proceedings of the Joint International Conference on Computational Linguistics, Language Resources and Evaluation LREC-COLING 2024. Torino. Italy.

5,000+

优质数据集

54 个

任务类型

进入经典数据集