five

somosnlp-hackathon-2022/nli-es

收藏
Hugging Face2022-04-04 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/somosnlp-hackathon-2022/nli-es
下载链接
链接失效反馈
官方服务:
资源简介:
ESnli数据集是一个西班牙语自然语言推理数据集,由XNLI数据集的西班牙语部分、机器翻译的西班牙语版SNLI数据集和机器翻译的西班牙语版MultiNLI数据集组合而成。该数据集旨在解决西班牙语标注NLI数据集的稀缺问题。数据集包含句子对,并附有标签,指示两者之间的关系,如蕴含、矛盾或中立。数据集为单语种,主要包含西班牙语文本,部分内容通过自动翻译生成。该数据集用于训练,没有单独的评估分割。

ESnli数据集是一个西班牙语自然语言推理数据集,由XNLI数据集的西班牙语部分、机器翻译的西班牙语版SNLI数据集和机器翻译的西班牙语版MultiNLI数据集组合而成。该数据集旨在解决西班牙语标注NLI数据集的稀缺问题。数据集包含句子对,并附有标签,指示两者之间的关系,如蕴含、矛盾或中立。数据集为单语种,主要包含西班牙语文本,部分内容通过自动翻译生成。该数据集用于训练,没有单独的评估分割。
提供机构:
somosnlp-hackathon-2022
原始信息汇总

数据集概述

数据集名称

  • 名称: ESnli
  • 别名: nli-es

数据集基本信息

  • 语言: 西班牙语(es)
  • 许可: 知识共享署名-非商业性使用-相同方式共享 4.0 国际许可(cc-by-sa-4.0)
  • 多语言性: 单语种
  • 大小: 未知

数据集来源

  • 源数据集:
    • 扩展自 SNLI
    • 扩展自 XNLI
    • 扩展自 MultiNLI

任务类型

  • 任务类别: 文本分类
  • 任务ID: 自然语言推理

数据集内容

数据实例结构

  • 数据字段:
    • gold_label: 字符串,定义句子对之间的关系,可能的值为 "entailment", "contradiction", "neutral"。
    • pairID: 字符串,标识句子对,目前用整数0作为占位符。
    • sentence1: 字符串,西班牙语句子,作为前提。
    • sentence2: 字符串,西班牙语句子,作为假设。

数据分割

  • 数据使用: 整个数据集用于训练,未使用评估分割。

数据集创建

数据集构建理由

  • 构建目的: 解决西班牙语自然语言推理(NLI)数据集的稀缺问题。
  • 数据生成方式: 通过机器翻译SNLI、MultiNLI等数据集的西班牙语版本生成。

数据集贡献者

  • 数据集创建者: Anibal Pérez, Lautaro Gesuelli, Mauricio Mazuecos, Emilio Tomás Ariza

使用数据集的注意事项

数据集的社交影响

  • 目的: 提供新的工具用于西班牙语句子的语义文本相似性分析。

数据集的已知限制

  • 限制: 机器翻译可能引入噪声,生成的句法和词汇形式可能与人类西班牙语使用者不同。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作