five

gsarti/itacola

收藏
Hugging Face2022-07-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/gsarti/itacola
下载链接
链接失效反馈
官方服务:
资源简介:
意大利语语言可接受性语料库(ItaCoLA)包含近10,000个来自语言学文献的句子,这些句子由原作者进行二元标注。该语料库的灵感来自英语的[语言可接受性语料库](https://nyu-mll.github.io/CoLA/)。数据集的结构包括两个配置:scores和phenomena,分别包含句子的可接受性判断和语言学现象的标注。数据集的语言为意大利语,创建者包括Daniela Trotta等人。

The Italian Language Acceptability Corpus (ItaCoLA) contains nearly 10,000 sentences sourced from linguistic literature, which were binary-labeled by their original authors. This corpus is inspired by the English Corpus of Linguistic Acceptability (CoLA) available at https://nyu-mll.github.io/CoLA/. The dataset includes two configurations: scores and phenomena, which respectively contain sentence acceptability judgments and annotations of linguistic phenomena. The dataset is in Italian, and its creators include Daniela Trotta et al.
提供机构:
gsarti
原始信息汇总

数据集概述

数据集名称

  • 名称: ItaCoLA
  • 别名: Italian Corpus of Linguistic Acceptability

数据集属性

  • 语言: 意大利语 (BCP-47 it)
  • 许可证: 未知
  • 多语言性: 单语
  • 大小: 未知
  • 来源: 原创
  • 任务类别: 文本分类
  • 任务ID: 可接受性分类

数据集描述

  • 摘要: ItaCoLA包含近10,000个来自语言学文献的句子,由原作者进行二元标注。该工作灵感来源于英语的Corpus of Linguistic Acceptability。
  • 支持的任务和排行榜:
    • 可接受性分类: 使用LSTM和BERT模型在训练集上进行微调,并在测试集上评估,结果包括准确率和Matthews相关系数。

数据集结构

  • 数据实例:
    • 分数配置: 包含接受度评分的句子,如unique_id, source, acceptability, sentence
    • 现象配置: 从分数配置中抽样的句子,手动标注了9种语言现象的存在与否。
  • 数据分割:
    • 分数配置: 训练集7801条,测试集975条。
    • 现象配置: 训练集2088条。

数据集创建

附加信息

  • 数据集管理员: 原作者。
  • 许可证信息: 无。
  • 引用信息: 请在使用本数据集时引用作者。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作