nbel/EsCoLA
收藏Hugging Face2024-06-21 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/nbel/EsCoLA
下载链接
链接失效反馈官方服务:
资源简介:
西班牙语语言可接受性语料库(EsCoLA)包含11,174个句子,这些句子来自语言学文献,并由原作者进行了二元注释。数据集分为in-domain和out-domain两个子集,in-domain子集包含10,567个句子,out-domain子集包含607个句子。in-domain子集进一步分为训练集(8454个句子)、开发集(1053个句子)和测试集(1060个句子),而out-domain子集分为开发集和测试集。数据格式为TSV文件,包含多个列,如唯一ID、句子来源、可接受性判断标签、人类注释、句子内容、语言现象类别等。数据集经过手动注释,涵盖了14种语言现象,特别是西班牙语特有的6种现象。数据集的创建过程涉及从已发表的作品中复制句子,并确保遵守版权法。
西班牙语语言可接受性语料库(EsCoLA)包含11,174个句子,这些句子来自语言学文献,并由原作者进行了二元注释。数据集分为in-domain和out-domain两个子集,in-domain子集包含10,567个句子,out-domain子集包含607个句子。in-domain子集进一步分为训练集(8454个句子)、开发集(1053个句子)和测试集(1060个句子),而out-domain子集分为开发集和测试集。数据格式为TSV文件,包含多个列,如唯一ID、句子来源、可接受性判断标签、人类注释、句子内容、语言现象类别等。数据集经过手动注释,涵盖了14种语言现象,特别是西班牙语特有的6种现象。数据集的创建过程涉及从已发表的作品中复制句子,并确保遵守版权法。
提供机构:
nbel
原始信息汇总
数据集概述
数据集名称
EsCoLA: Spanish Corpus of Linguistic Acceptability
数据集语言
西班牙语(es)
数据集内容
- 总句子数:11,174句
- 数据集划分:
- InDomain:10,567句
- train:8,454句
- dev:1,053句
- test:1,060句
- OutDomain:607句
- dev/test:具体数量未公开
- InDomain:10,567句
数据集格式
- InDomain:每行包含11个以制表符分隔的列,包括唯一ID、来源、接受度判断标签、来源注释、人类注释、注释中位数、句子内容、语言现象类别和所属分割。
- OutDomain:每行包含6个以制表符分隔的列,包括唯一ID、来源、接受度判断标签、来源注释、句子内容和语言现象类别。
数据集来源
- InDomain:Demonte and Bosque (1999)
- OutDomain:RAE (2009), Palencia and Aragonés (2007), Díaz and Yagüe (2019)
数据集注释
- 手动注释了14种语言现象,包括简单、谓语、附加语、论元类型、论元交替、约束代词、Wh现象、补语从句、情态、否定、迂说和助动词、不定式嵌入VP和指称现象、复杂NP和AP、S-语法、限定词、量词、比较和最高级构造、西班牙语现象。
许可证
CC-BY 4.0
下载信息
- InDomain train/dev和人类注释:可从https://github.com/nuriabel/LUTEST/下载
- OutDomain数据集和InDomain测试数据:需联系nuria.bel@upf.edu获取
引用信息
- 使用本数据集时,请引用以下文献:
- Alex Warstadt, Amanpreet Singh, and Samuel R. Bowman. 2018. Neural network acceptability judgments. arXiv preprint arXiv:1805.12471.
- Núria Bel, Marta Punsola, Valle Ruiz-Fernández, 2024, EsCoLA: Spanish Corpus of Linguistic Acceptability. Proceedings of the Joint International Conference on Computational Linguistics, Language Resources and Evaluation LREC-COLING 2024. Torino. Italy.



