five

PlanTL-GOB-ES/wnli-es

收藏
Hugging Face2024-05-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/PlanTL-GOB-ES/wnli-es
下载链接
链接失效反馈
官方服务:
资源简介:
WNLI-es数据集是一个西班牙语版本的Winograd NLI数据集,包含855个句子对。每个句子对中的第一个句子包含一个歧义,第二个句子是对该歧义的一种可能解释。标签指示解释是否正确(1表示正确,0表示不正确)。该数据集由专业翻译机构翻译,旨在促进西班牙语语言模型的发展。数据集遵循Creative Commons Attribution 4.0 International License许可。

YAML 标签: annotations_creators: - 专家生成 language_creators: - 公开获取 language: - es license: - cc-by-4.0 multilinguality: - 单语言 pretty_name: wnli-es size_categories: - 未知 source_datasets: - 扩展|GLUE task_categories: - 文本分类 task_ids: - 自然语言推理(natural-language-inference) --- # WNLI-es 数据集 ## 目录 - [目录](#table-of-contents) - [数据集描述](#dataset-description) - [数据集概述](#dataset-summary) - [支持任务与基准榜](#supported-tasks-and-leaderboards) - [语言](#languages) - [数据集结构](#dataset-structure) - [数据实例](#data-instances) - [数据字段](#data-fields) - [数据划分](#data-splits) - [数据集创建](#dataset-creation) - [数据集构建初衷](#curation-rationale) - [源数据](#source-data) - [标注信息](#annotations) - [个人与敏感信息](#personal-and-sensitive-information) - [数据使用注意事项](#considerations-for-using-the-data) - [数据集的社会影响](#social-impact-of-dataset) - [偏差讨论](#discussion-of-biases) - [其他已知局限](#other-known-limitations) - [附加信息](#additional-information) - [数据集策展人](#dataset-curators) - [许可信息](#licensing-information) - [引用信息](#citation-information) - [贡献信息](#contributions) ## 数据集描述 - **官方网站:** https://cs.nyu.edu/~davise/papers/WinogradSchemas/WS.html - **联系方式:** [Carlos Rodríguez-Penagos](carlos.rodriguez1@bsc.es) 和 [Carme Armentano-Oller](carme.armentano@bsc.es) ### 数据集概述 "Winograd模式(Winograd schema)是指仅在一至两个单词上存在差异的句子对,二者包含歧义且歧义在两句中以相反方式得到消解,需借助世界知识与推理完成消解,该模式以特里·维诺格拉德(Terry Winograd)命名。" 来源:[《Winograd模式挑战》(The Winograd Schema Challenge)](https://cs.nyu.edu/~davise/papers/WinogradSchemas/WS.html)。 [Winograd自然语言推理数据集(Winograd NLI)](https://dl.fbaipublicfiles.com/glue/data/WNLI.zip)包含855个句子对,其中第一个句子存在歧义,第二个句子给出其可能的解释,标签用于指示该解释是否正确(1为正确,0为错误)。 本数据集是针对[GLUE基准(GLUE Benchmark)](https://gluebenchmark.com/tasks)发布的Winograd自然语言推理数据集的专业西班牙语翻译版本。 原始数据集与本翻译版本均采用[知识共享署名4.0国际许可协议(Creative Commons Attribution 4.0 International License)](https://creativecommons.org/licenses/by/4.0/)进行授权。 **更新(2024-05-27):** WNLI-ES的验证集划分曾存在标签反转问题,现已修复以匹配当前英文WNLI验证集划分(https://huggingface.co/datasets/nyu-mll/glue/viewer/wnli/validation)。 ### 支持任务与基准榜 文本蕴涵、文本分类、语言模型。 ### 语言 * 西班牙语(es) ## 数据集结构 ### 数据实例 三个TSV文件。 ### 数据字段 - index:索引 - sentence 1:句子对中的第一个句子 - sentence 2:句子对中的第二个句子 - label:两个句子间的关系: * 0:第二个句子未构成对第一个句子的正确解释(中立) * 1:第二个句子构成对第一个句子的正确解释(蕴涵) ### 数据划分 - wnli-train-es.csv:636个句子对 - wnli-dev-es.csv:72个句子对 - wnli-test-shuffled-es.csv:147个句子对 ## 数据集创建 ### 数据集构建初衷 我们翻译该数据集旨在推动西班牙语语言模型的发展。 ### 源数据 - [GLUE基准官网(GLUE Benchmark site)](https://gluebenchmark.com) #### 初始数据收集与标准化 本数据集是由[巴塞罗那超级计算中心文本挖掘单元(BSC TeMU)](https://temu.bsc.es/)在[Plan-TL计划(Plan-TL)](https://plantl.mineco.gob.es/Paginas/index.aspx)框架下委托完成的[WNLI数据集](https://cs.nyu.edu/~davise/papers/WinogradSchemas/WS.html)的专业西班牙语翻译版本。如需了解Winograd自然语言推理数据集的创建细节,请访问[《Winograd模式挑战》官网](https://cs.nyu.edu/~davise/papers/WinogradSchemas/WS.html)。 #### 源语言生产者是谁? 如需了解Winograd自然语言推理数据集的创建细节,请访问[《Winograd模式挑战》官网](https://cs.nyu.edu/~davise/papers/WinogradSchemas/WS.html)。 ### 标注信息 #### 标注流程 我们委托专业机构完成了[WNLI数据集](https://cs.nyu.edu/~davise/papers/WinogradSchemas/WS.html)的西班牙语专业翻译。 #### 标注者是谁? 翻译工作委托给了专业翻译机构。 ### 个人与敏感信息 未包含任何个人或敏感信息。 ## 数据使用注意事项 ### 数据集的社会影响 本数据集有助于推动西班牙语语言模型的发展。 ### 偏差讨论 [无] ### 其他已知局限 [无] ## 附加信息 ### 数据集策展人 巴塞罗那超级计算中心文本挖掘单元(TeMU)(bsc-temu@bsc.es)。 如需进一步信息,请发送邮件至plantl-gob-es@bsc.es。 本项目由[西班牙数字化与人工智能国务秘书处(SEDIA)](https://avancedigital.mineco.gob.es/en-us/Paginas/index.aspx)在Plan-TL计划框架下资助。 ### 许可信息 本作品采用[知识共享署名4.0国际许可协议(CC Attribution 4.0 International)](https://creativecommons.org/licenses/by/4.0/)进行授权。 版权归西班牙数字化与人工智能国务秘书处(SEDIA)所有(2022) ### 贡献信息 [无]
提供机构:
PlanTL-GOB-ES
原始信息汇总

WNLI-es 数据集概述

数据集描述

数据集总结

WNLI-es 数据集是 Winograd NLI 数据集的专业西班牙语翻译版本,包含 855 个句子对,每个句子对中的第一个句子包含一个歧义,第二个句子提供一个可能的解释,标签指示该解释是否正确(1 表示正确,0 表示不正确)。该数据集旨在促进西班牙语语言模型的发展。

支持的任务和排行榜

  • 文本蕴含
  • 文本分类
  • 语言模型

语言

  • 西班牙语 (es)

数据集结构

数据实例

数据集包含三个 tsv 文件。

数据字段

  • index
  • sentence 1: 句子对中的第一个句子
  • sentence 2: 句子对中的第二个句子
  • label: 两个句子之间的关系
    • 0: 第二个句子不提供第一个句子的正确解释(中性)
    • 1: 第二个句子提供第一个句子的正确解释(蕴含)

数据分割

  • wnli-train-es.csv: 636 个句子对
  • wnli-dev-es.csv: 72 个句子对
  • wnli-test-shuffled-es.csv: 147 个句子对

数据集创建

精选理由

数据集的翻译旨在为西班牙语语言模型的发展做出贡献。

源数据

数据集是 WNLI 数据集的专业西班牙语翻译,由 BSC TeMU 在 Plan-TL 框架内委托进行。

注释

注释过程

数据集的西班牙语翻译由专业翻译机构完成。

注释者

翻译工作由专业翻译机构执行。

个人和敏感信息

数据集中不包含个人或敏感信息。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作