PlanTL-GOB-ES/wnli-es

Name: PlanTL-GOB-ES/wnli-es
Creator: PlanTL-GOB-ES
Published: 2024-05-27 14:22:20
License: 暂无描述

Hugging Face2024-05-27 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/PlanTL-GOB-ES/wnli-es

下载链接

链接失效反馈

官方服务：

资源简介：

WNLI-es数据集是一个西班牙语版本的Winograd NLI数据集，包含855个句子对。每个句子对中的第一个句子包含一个歧义，第二个句子是对该歧义的一种可能解释。标签指示解释是否正确（1表示正确，0表示不正确）。该数据集由专业翻译机构翻译，旨在促进西班牙语语言模型的发展。数据集遵循Creative Commons Attribution 4.0 International License许可。

YAML 标签： annotations_creators: - 专家生成 language_creators: - 公开获取 language: - es license: - cc-by-4.0 multilinguality: - 单语言 pretty_name: wnli-es size_categories: - 未知 source_datasets: - 扩展|GLUE task_categories: - 文本分类 task_ids: - 自然语言推理（natural-language-inference） --- # WNLI-es 数据集 ## 目录 - [目录](#table-of-contents) - [数据集描述](#dataset-description) - [数据集概述](#dataset-summary) - [支持任务与基准榜](#supported-tasks-and-leaderboards) - [语言](#languages) - [数据集结构](#dataset-structure) - [数据实例](#data-instances) - [数据字段](#data-fields) - [数据划分](#data-splits) - [数据集创建](#dataset-creation) - [数据集构建初衷](#curation-rationale) - [源数据](#source-data) - [标注信息](#annotations) - [个人与敏感信息](#personal-and-sensitive-information) - [数据使用注意事项](#considerations-for-using-the-data) - [数据集的社会影响](#social-impact-of-dataset) - [偏差讨论](#discussion-of-biases) - [其他已知局限](#other-known-limitations) - [附加信息](#additional-information) - [数据集策展人](#dataset-curators) - [许可信息](#licensing-information) - [引用信息](#citation-information) - [贡献信息](#contributions) ## 数据集描述 - **官方网站：** https://cs.nyu.edu/~davise/papers/WinogradSchemas/WS.html - **联系方式：** [Carlos Rodríguez-Penagos](carlos.rodriguez1@bsc.es) 和 [Carme Armentano-Oller](carme.armentano@bsc.es) ### 数据集概述 "Winograd模式（Winograd schema）是指仅在一至两个单词上存在差异的句子对，二者包含歧义且歧义在两句中以相反方式得到消解，需借助世界知识与推理完成消解，该模式以特里·维诺格拉德（Terry Winograd）命名。" 来源：[《Winograd模式挑战》（The Winograd Schema Challenge）](https://cs.nyu.edu/~davise/papers/WinogradSchemas/WS.html)。 [Winograd自然语言推理数据集（Winograd NLI）](https://dl.fbaipublicfiles.com/glue/data/WNLI.zip)包含855个句子对，其中第一个句子存在歧义，第二个句子给出其可能的解释，标签用于指示该解释是否正确（1为正确，0为错误）。本数据集是针对[GLUE基准（GLUE Benchmark）](https://gluebenchmark.com/tasks)发布的Winograd自然语言推理数据集的专业西班牙语翻译版本。原始数据集与本翻译版本均采用[知识共享署名4.0国际许可协议（Creative Commons Attribution 4.0 International License）](https://creativecommons.org/licenses/by/4.0/)进行授权。 **更新（2024-05-27）：** WNLI-ES的验证集划分曾存在标签反转问题，现已修复以匹配当前英文WNLI验证集划分（https://huggingface.co/datasets/nyu-mll/glue/viewer/wnli/validation）。 ### 支持任务与基准榜文本蕴涵、文本分类、语言模型。 ### 语言 * 西班牙语（es） ## 数据集结构 ### 数据实例三个TSV文件。 ### 数据字段 - index：索引 - sentence 1：句子对中的第一个句子 - sentence 2：句子对中的第二个句子 - label：两个句子间的关系： * 0：第二个句子未构成对第一个句子的正确解释（中立） * 1：第二个句子构成对第一个句子的正确解释（蕴涵） ### 数据划分 - wnli-train-es.csv：636个句子对 - wnli-dev-es.csv：72个句子对 - wnli-test-shuffled-es.csv：147个句子对 ## 数据集创建 ### 数据集构建初衷我们翻译该数据集旨在推动西班牙语语言模型的发展。 ### 源数据 - [GLUE基准官网（GLUE Benchmark site）](https://gluebenchmark.com) #### 初始数据收集与标准化本数据集是由[巴塞罗那超级计算中心文本挖掘单元（BSC TeMU）](https://temu.bsc.es/)在[Plan-TL计划（Plan-TL）](https://plantl.mineco.gob.es/Paginas/index.aspx)框架下委托完成的[WNLI数据集](https://cs.nyu.edu/~davise/papers/WinogradSchemas/WS.html)的专业西班牙语翻译版本。如需了解Winograd自然语言推理数据集的创建细节，请访问[《Winograd模式挑战》官网](https://cs.nyu.edu/~davise/papers/WinogradSchemas/WS.html)。 #### 源语言生产者是谁？如需了解Winograd自然语言推理数据集的创建细节，请访问[《Winograd模式挑战》官网](https://cs.nyu.edu/~davise/papers/WinogradSchemas/WS.html)。 ### 标注信息 #### 标注流程我们委托专业机构完成了[WNLI数据集](https://cs.nyu.edu/~davise/papers/WinogradSchemas/WS.html)的西班牙语专业翻译。 #### 标注者是谁？翻译工作委托给了专业翻译机构。 ### 个人与敏感信息未包含任何个人或敏感信息。 ## 数据使用注意事项 ### 数据集的社会影响本数据集有助于推动西班牙语语言模型的发展。 ### 偏差讨论 [无] ### 其他已知局限 [无] ## 附加信息 ### 数据集策展人巴塞罗那超级计算中心文本挖掘单元（TeMU）（bsc-temu@bsc.es）。如需进一步信息，请发送邮件至plantl-gob-es@bsc.es。本项目由[西班牙数字化与人工智能国务秘书处（SEDIA）](https://avancedigital.mineco.gob.es/en-us/Paginas/index.aspx)在Plan-TL计划框架下资助。 ### 许可信息本作品采用[知识共享署名4.0国际许可协议（CC Attribution 4.0 International）](https://creativecommons.org/licenses/by/4.0/)进行授权。版权归西班牙数字化与人工智能国务秘书处（SEDIA）所有（2022） ### 贡献信息 [无]

提供机构：

PlanTL-GOB-ES

原始信息汇总

WNLI-es 数据集概述

数据集描述

数据集总结

WNLI-es 数据集是 Winograd NLI 数据集的专业西班牙语翻译版本，包含 855 个句子对，每个句子对中的第一个句子包含一个歧义，第二个句子提供一个可能的解释，标签指示该解释是否正确（1 表示正确，0 表示不正确）。该数据集旨在促进西班牙语语言模型的发展。

支持的任务和排行榜

文本蕴含
文本分类
语言模型

语言

西班牙语 (es)

数据集结构

数据实例

数据集包含三个 tsv 文件。

数据字段

index
sentence 1: 句子对中的第一个句子
sentence 2: 句子对中的第二个句子
label: 两个句子之间的关系
- 0: 第二个句子不提供第一个句子的正确解释（中性）
- 1: 第二个句子提供第一个句子的正确解释（蕴含）

数据分割

wnli-train-es.csv: 636 个句子对
wnli-dev-es.csv: 72 个句子对
wnli-test-shuffled-es.csv: 147 个句子对

数据集创建

精选理由

数据集的翻译旨在为西班牙语语言模型的发展做出贡献。

源数据

数据集是 WNLI 数据集的专业西班牙语翻译，由 BSC TeMU 在 Plan-TL 框架内委托进行。

注释

注释过程

数据集的西班牙语翻译由专业翻译机构完成。

注释者

翻译工作由专业翻译机构执行。

个人和敏感信息

数据集中不包含个人或敏感信息。

5,000+

优质数据集

54 个

任务类型

进入经典数据集