gsarti/itacola
收藏Hugging Face2022-07-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/gsarti/itacola
下载链接
链接失效反馈官方服务:
资源简介:
意大利语语言可接受性语料库(ItaCoLA)包含近10,000个来自语言学文献的句子,这些句子由原作者进行二元标注。该语料库的灵感来自英语的[语言可接受性语料库](https://nyu-mll.github.io/CoLA/)。数据集的结构包括两个配置:scores和phenomena,分别包含句子的可接受性判断和语言学现象的标注。数据集的语言为意大利语,创建者包括Daniela Trotta等人。
The Italian Language Acceptability Corpus (ItaCoLA) contains nearly 10,000 sentences sourced from linguistic literature, which were binary-labeled by their original authors. This corpus is inspired by the English Corpus of Linguistic Acceptability (CoLA) available at https://nyu-mll.github.io/CoLA/. The dataset includes two configurations: scores and phenomena, which respectively contain sentence acceptability judgments and annotations of linguistic phenomena. The dataset is in Italian, and its creators include Daniela Trotta et al.
提供机构:
gsarti
原始信息汇总
数据集概述
数据集名称
- 名称: ItaCoLA
- 别名: Italian Corpus of Linguistic Acceptability
数据集属性
- 语言: 意大利语 (BCP-47
it) - 许可证: 未知
- 多语言性: 单语
- 大小: 未知
- 来源: 原创
- 任务类别: 文本分类
- 任务ID: 可接受性分类
数据集描述
- 摘要: ItaCoLA包含近10,000个来自语言学文献的句子,由原作者进行二元标注。该工作灵感来源于英语的Corpus of Linguistic Acceptability。
- 支持的任务和排行榜:
- 可接受性分类: 使用LSTM和BERT模型在训练集上进行微调,并在测试集上评估,结果包括准确率和Matthews相关系数。
数据集结构
- 数据实例:
- 分数配置: 包含接受度评分的句子,如
unique_id,source,acceptability,sentence。 - 现象配置: 从
分数配置中抽样的句子,手动标注了9种语言现象的存在与否。
- 分数配置: 包含接受度评分的句子,如
- 数据分割:
分数配置: 训练集7801条,测试集975条。现象配置: 训练集2088条。
数据集创建
附加信息
- 数据集管理员: 原作者。
- 许可证信息: 无。
- 引用信息: 请在使用本数据集时引用作者。



