venelin/inferes

Name: venelin/inferes
Creator: venelin
Published: 2022-10-08 01:25:47
License: 暂无描述

Hugging Face2022-10-08 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/venelin/inferes

下载链接

链接失效反馈

官方服务：

资源简介：

InferES数据集是一个用于自然语言推理（Natural Language Inference, NLI）任务的西班牙语数据集。该数据集由专家生成，包含两个文本输入（前提和假设）以及一个三分类标签。数据集的结构包括训练集和测试集，数据字段包括ID、前提、假设、标签、主题、注释者ID和注释类型。数据集的来源包括维基百科和通过句子生成器生成的文本。注释者均为欧洲西班牙语的母语者，数据集不包含个人或敏感信息。

提供机构：

venelin

原始信息汇总

数据集概述

数据集基本信息

名称: InferES
语言: 西班牙语
许可证: cc-by-4.0
规模: 1K<n<10K
来源: 原始数据
标签: nli, 西班牙语, 否定, 指代消解
任务类别: 文本分类
任务ID: 自然语言推理

数据集描述

数据集总结

类型: 自然语言推理数据集
语言: 欧洲西班牙语
论文: 接受并在COLING 2022上发表

支持的任务和排行榜

任务: 自然语言推理

数据集结构

数据实例

训练集大小: 6444
测试集大小: 1612

数据字段

ID: 实例的唯一ID
前提
假设
标签: cnt, ent, neutral
主题: 1 (Picasso), 2 (Columbus), 3 (Videogames), 4 (Olympic games), 5 (EU), 6 (USSR)
注释: 注释者的ID
注释类型: Generate, Rewrite, Crowd, Automated

数据分割

分割依据: 标签 + 注释 + 注释类型

源数据

来源: 维基百科 + 通过雇佣的“句子生成器”生成的文本

注释者

资格: 欧洲西班牙语母语者

个人和敏感信息

处理: 无个人或敏感信息包含
注释者匿名化: 仅以“ID”形式保留

附加信息

数据集管理员

管理员: Venelin Kovatchev

许可证信息

许可证: cc-by-4.0

引用信息

引用指南: 待COLING 2022会议后添加

5,000+

优质数据集

54 个

任务类型

进入经典数据集