five

nbel/EsCoLA

收藏
Hugging Face2024-06-21 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/nbel/EsCoLA
下载链接
链接失效反馈
官方服务:
资源简介:
西班牙语语言可接受性语料库(EsCoLA)包含11,174个句子,这些句子来自语言学文献,并由原作者进行了二元注释。数据集分为in-domain和out-domain两个子集,in-domain子集包含10,567个句子,out-domain子集包含607个句子。in-domain子集进一步分为训练集(8454个句子)、开发集(1053个句子)和测试集(1060个句子),而out-domain子集分为开发集和测试集。数据格式为TSV文件,包含多个列,如唯一ID、句子来源、可接受性判断标签、人类注释、句子内容、语言现象类别等。数据集经过手动注释,涵盖了14种语言现象,特别是西班牙语特有的6种现象。数据集的创建过程涉及从已发表的作品中复制句子,并确保遵守版权法。

西班牙语语言可接受性语料库(EsCoLA)包含11,174个句子,这些句子来自语言学文献,并由原作者进行了二元注释。数据集分为in-domain和out-domain两个子集,in-domain子集包含10,567个句子,out-domain子集包含607个句子。in-domain子集进一步分为训练集(8454个句子)、开发集(1053个句子)和测试集(1060个句子),而out-domain子集分为开发集和测试集。数据格式为TSV文件,包含多个列,如唯一ID、句子来源、可接受性判断标签、人类注释、句子内容、语言现象类别等。数据集经过手动注释,涵盖了14种语言现象,特别是西班牙语特有的6种现象。数据集的创建过程涉及从已发表的作品中复制句子,并确保遵守版权法。
提供机构:
nbel
原始信息汇总

数据集概述

数据集名称

EsCoLA: Spanish Corpus of Linguistic Acceptability

数据集语言

西班牙语(es)

数据集内容

  • 总句子数:11,174句
  • 数据集划分
    • InDomain:10,567句
      • train:8,454句
      • dev:1,053句
      • test:1,060句
    • OutDomain:607句
      • dev/test:具体数量未公开

数据集格式

  • InDomain:每行包含11个以制表符分隔的列,包括唯一ID、来源、接受度判断标签、来源注释、人类注释、注释中位数、句子内容、语言现象类别和所属分割。
  • OutDomain:每行包含6个以制表符分隔的列,包括唯一ID、来源、接受度判断标签、来源注释、句子内容和语言现象类别。

数据集来源

  • InDomain:Demonte and Bosque (1999)
  • OutDomain:RAE (2009), Palencia and Aragonés (2007), Díaz and Yagüe (2019)

数据集注释

  • 手动注释了14种语言现象,包括简单、谓语、附加语、论元类型、论元交替、约束代词、Wh现象、补语从句、情态、否定、迂说和助动词、不定式嵌入VP和指称现象、复杂NP和AP、S-语法、限定词、量词、比较和最高级构造、西班牙语现象。

许可证

CC-BY 4.0

下载信息

  • InDomain train/dev和人类注释:可从https://github.com/nuriabel/LUTEST/下载
  • OutDomain数据集和InDomain测试数据:需联系nuria.bel@upf.edu获取

引用信息

  • 使用本数据集时,请引用以下文献:
    • Alex Warstadt, Amanpreet Singh, and Samuel R. Bowman. 2018. Neural network acceptability judgments. arXiv preprint arXiv:1805.12471.
    • Núria Bel, Marta Punsola, Valle Ruiz-Fernández, 2024, EsCoLA: Spanish Corpus of Linguistic Acceptability. Proceedings of the Joint International Conference on Computational Linguistics, Language Resources and Evaluation LREC-COLING 2024. Torino. Italy.
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作