venelin/inferes
收藏Hugging Face2022-10-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/venelin/inferes
下载链接
链接失效反馈官方服务:
资源简介:
InferES数据集是一个用于自然语言推理(Natural Language Inference, NLI)任务的西班牙语数据集。该数据集由专家生成,包含两个文本输入(前提和假设)以及一个三分类标签。数据集的结构包括训练集和测试集,数据字段包括ID、前提、假设、标签、主题、注释者ID和注释类型。数据集的来源包括维基百科和通过句子生成器生成的文本。注释者均为欧洲西班牙语的母语者,数据集不包含个人或敏感信息。
提供机构:
venelin
原始信息汇总
数据集概述
数据集基本信息
- 名称: InferES
- 语言: 西班牙语
- 许可证: cc-by-4.0
- 规模: 1K<n<10K
- 来源: 原始数据
- 标签: nli, 西班牙语, 否定, 指代消解
- 任务类别: 文本分类
- 任务ID: 自然语言推理
数据集描述
数据集总结
- 类型: 自然语言推理数据集
- 语言: 欧洲西班牙语
- 论文: 接受并在COLING 2022上发表
支持的任务和排行榜
- 任务: 自然语言推理
数据集结构
数据实例
- 训练集大小: 6444
- 测试集大小: 1612
数据字段
- ID: 实例的唯一ID
- 前提
- 假设
- 标签: cnt, ent, neutral
- 主题: 1 (Picasso), 2 (Columbus), 3 (Videogames), 4 (Olympic games), 5 (EU), 6 (USSR)
- 注释: 注释者的ID
- 注释类型: Generate, Rewrite, Crowd, Automated
数据分割
- 分割依据: 标签 + 注释 + 注释类型
源数据
- 来源: 维基百科 + 通过雇佣的“句子生成器”生成的文本
注释者
- 资格: 欧洲西班牙语母语者
个人和敏感信息
- 处理: 无个人或敏感信息包含
- 注释者匿名化: 仅以“ID”形式保留
附加信息
数据集管理员
- 管理员: Venelin Kovatchev
许可证信息
- 许可证: cc-by-4.0
引用信息
- 引用指南: 待COLING 2022会议后添加



