gsarti/itacola

Name: gsarti/itacola
Creator: gsarti
Published: 2022-07-01 15:38:55
License: 暂无描述

Hugging Face2022-07-01 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/gsarti/itacola

下载链接

链接失效反馈

官方服务：

资源简介：

意大利语语言可接受性语料库（ItaCoLA）包含近10,000个来自语言学文献的句子，这些句子由原作者进行二元标注。该语料库的灵感来自英语的[语言可接受性语料库](https://nyu-mll.github.io/CoLA/)。数据集的结构包括两个配置：scores和phenomena，分别包含句子的可接受性判断和语言学现象的标注。数据集的语言为意大利语，创建者包括Daniela Trotta等人。

The Italian Language Acceptability Corpus (ItaCoLA) contains nearly 10,000 sentences sourced from linguistic literature, which were binary-labeled by their original authors. This corpus is inspired by the English Corpus of Linguistic Acceptability (CoLA) available at https://nyu-mll.github.io/CoLA/. The dataset includes two configurations: scores and phenomena, which respectively contain sentence acceptability judgments and annotations of linguistic phenomena. The dataset is in Italian, and its creators include Daniela Trotta et al.

提供机构：

gsarti

原始信息汇总

数据集概述

数据集名称

名称: ItaCoLA
别名: Italian Corpus of Linguistic Acceptability

数据集属性

语言: 意大利语 (BCP-47 it)
许可证: 未知
多语言性: 单语
大小: 未知
来源: 原创
任务类别: 文本分类
任务ID: 可接受性分类

数据集描述

摘要: ItaCoLA包含近10,000个来自语言学文献的句子，由原作者进行二元标注。该工作灵感来源于英语的Corpus of Linguistic Acceptability。
支持的任务和排行榜:
- 可接受性分类: 使用LSTM和BERT模型在训练集上进行微调，并在测试集上评估，结果包括准确率和Matthews相关系数。

数据集结构

数据实例:
- 分数配置: 包含接受度评分的句子，如unique_id, source, acceptability, sentence。
- 现象配置: 从分数配置中抽样的句子，手动标注了9种语言现象的存在与否。
数据分割:
- 分数配置: 训练集7801条，测试集975条。
- 现象配置: 训练集2088条。

数据集创建

创建详情: 请参阅原始文章Monolingual and Cross-Lingual Acceptability Judgments with the Italian CoLA corpus。

附加信息

数据集管理员: 原作者。
许可证信息: 无。
引用信息: 请在使用本数据集时引用作者。

5,000+

优质数据集

54 个

任务类型

进入经典数据集