somosnlp-hackathon-2022/nli-es
收藏Hugging Face2022-04-04 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/somosnlp-hackathon-2022/nli-es
下载链接
链接失效反馈官方服务:
资源简介:
ESnli数据集是一个西班牙语自然语言推理数据集,由XNLI数据集的西班牙语部分、机器翻译的西班牙语版SNLI数据集和机器翻译的西班牙语版MultiNLI数据集组合而成。该数据集旨在解决西班牙语标注NLI数据集的稀缺问题。数据集包含句子对,并附有标签,指示两者之间的关系,如蕴含、矛盾或中立。数据集为单语种,主要包含西班牙语文本,部分内容通过自动翻译生成。该数据集用于训练,没有单独的评估分割。
ESnli数据集是一个西班牙语自然语言推理数据集,由XNLI数据集的西班牙语部分、机器翻译的西班牙语版SNLI数据集和机器翻译的西班牙语版MultiNLI数据集组合而成。该数据集旨在解决西班牙语标注NLI数据集的稀缺问题。数据集包含句子对,并附有标签,指示两者之间的关系,如蕴含、矛盾或中立。数据集为单语种,主要包含西班牙语文本,部分内容通过自动翻译生成。该数据集用于训练,没有单独的评估分割。
提供机构:
somosnlp-hackathon-2022
原始信息汇总
数据集概述
数据集名称
- 名称: ESnli
- 别名: nli-es
数据集基本信息
- 语言: 西班牙语(es)
- 许可: 知识共享署名-非商业性使用-相同方式共享 4.0 国际许可(cc-by-sa-4.0)
- 多语言性: 单语种
- 大小: 未知
数据集来源
- 源数据集:
- 扩展自 SNLI
- 扩展自 XNLI
- 扩展自 MultiNLI
任务类型
- 任务类别: 文本分类
- 任务ID: 自然语言推理
数据集内容
数据实例结构
- 数据字段:
gold_label: 字符串,定义句子对之间的关系,可能的值为 "entailment", "contradiction", "neutral"。pairID: 字符串,标识句子对,目前用整数0作为占位符。sentence1: 字符串,西班牙语句子,作为前提。sentence2: 字符串,西班牙语句子,作为假设。
数据分割
- 数据使用: 整个数据集用于训练,未使用评估分割。
数据集创建
数据集构建理由
- 构建目的: 解决西班牙语自然语言推理(NLI)数据集的稀缺问题。
- 数据生成方式: 通过机器翻译SNLI、MultiNLI等数据集的西班牙语版本生成。
数据集贡献者
- 数据集创建者: Anibal Pérez, Lautaro Gesuelli, Mauricio Mazuecos, Emilio Tomás Ariza
使用数据集的注意事项
数据集的社交影响
- 目的: 提供新的工具用于西班牙语句子的语义文本相似性分析。
数据集的已知限制
- 限制: 机器翻译可能引入噪声,生成的句法和词汇形式可能与人类西班牙语使用者不同。



