five

venelin/inferes

收藏
Hugging Face2022-10-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/venelin/inferes
下载链接
链接失效反馈
官方服务:
资源简介:
InferES数据集是一个用于自然语言推理(Natural Language Inference, NLI)任务的西班牙语数据集。该数据集由专家生成,包含两个文本输入(前提和假设)以及一个三分类标签。数据集的结构包括训练集和测试集,数据字段包括ID、前提、假设、标签、主题、注释者ID和注释类型。数据集的来源包括维基百科和通过句子生成器生成的文本。注释者均为欧洲西班牙语的母语者,数据集不包含个人或敏感信息。
提供机构:
venelin
原始信息汇总

数据集概述

数据集基本信息

  • 名称: InferES
  • 语言: 西班牙语
  • 许可证: cc-by-4.0
  • 规模: 1K<n<10K
  • 来源: 原始数据
  • 标签: nli, 西班牙语, 否定, 指代消解
  • 任务类别: 文本分类
  • 任务ID: 自然语言推理

数据集描述

数据集总结

  • 类型: 自然语言推理数据集
  • 语言: 欧洲西班牙语
  • 论文: 接受并在COLING 2022上发表

支持的任务和排行榜

  • 任务: 自然语言推理

数据集结构

数据实例

  • 训练集大小: 6444
  • 测试集大小: 1612

数据字段

  • ID: 实例的唯一ID
  • 前提
  • 假设
  • 标签: cnt, ent, neutral
  • 主题: 1 (Picasso), 2 (Columbus), 3 (Videogames), 4 (Olympic games), 5 (EU), 6 (USSR)
  • 注释: 注释者的ID
  • 注释类型: Generate, Rewrite, Crowd, Automated

数据分割

  • 分割依据: 标签 + 注释 + 注释类型

源数据

  • 来源: 维基百科 + 通过雇佣的“句子生成器”生成的文本

注释者

  • 资格: 欧洲西班牙语母语者

个人和敏感信息

  • 处理: 无个人或敏感信息包含
  • 注释者匿名化: 仅以“ID”形式保留

附加信息

数据集管理员

  • 管理员: Venelin Kovatchev

许可证信息

  • 许可证: cc-by-4.0

引用信息

  • 引用指南: 待COLING 2022会议后添加
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作