PlanTL-GOB-ES/wnli-es
收藏Hugging Face2024-05-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/PlanTL-GOB-ES/wnli-es
下载链接
链接失效反馈官方服务:
资源简介:
WNLI-es数据集是一个西班牙语版本的Winograd NLI数据集,包含855个句子对。每个句子对中的第一个句子包含一个歧义,第二个句子是对该歧义的一种可能解释。标签指示解释是否正确(1表示正确,0表示不正确)。该数据集由专业翻译机构翻译,旨在促进西班牙语语言模型的发展。数据集遵循Creative Commons Attribution 4.0 International License许可。
YAML 标签:
annotations_creators:
- 专家生成
language_creators:
- 公开获取
language:
- es
license:
- cc-by-4.0
multilinguality:
- 单语言
pretty_name: wnli-es
size_categories:
- 未知
source_datasets:
- 扩展|GLUE
task_categories:
- 文本分类
task_ids:
- 自然语言推理(natural-language-inference)
---
# WNLI-es 数据集
## 目录
- [目录](#table-of-contents)
- [数据集描述](#dataset-description)
- [数据集概述](#dataset-summary)
- [支持任务与基准榜](#supported-tasks-and-leaderboards)
- [语言](#languages)
- [数据集结构](#dataset-structure)
- [数据实例](#data-instances)
- [数据字段](#data-fields)
- [数据划分](#data-splits)
- [数据集创建](#dataset-creation)
- [数据集构建初衷](#curation-rationale)
- [源数据](#source-data)
- [标注信息](#annotations)
- [个人与敏感信息](#personal-and-sensitive-information)
- [数据使用注意事项](#considerations-for-using-the-data)
- [数据集的社会影响](#social-impact-of-dataset)
- [偏差讨论](#discussion-of-biases)
- [其他已知局限](#other-known-limitations)
- [附加信息](#additional-information)
- [数据集策展人](#dataset-curators)
- [许可信息](#licensing-information)
- [引用信息](#citation-information)
- [贡献信息](#contributions)
## 数据集描述
- **官方网站:** https://cs.nyu.edu/~davise/papers/WinogradSchemas/WS.html
- **联系方式:** [Carlos Rodríguez-Penagos](carlos.rodriguez1@bsc.es) 和 [Carme Armentano-Oller](carme.armentano@bsc.es)
### 数据集概述
"Winograd模式(Winograd schema)是指仅在一至两个单词上存在差异的句子对,二者包含歧义且歧义在两句中以相反方式得到消解,需借助世界知识与推理完成消解,该模式以特里·维诺格拉德(Terry Winograd)命名。" 来源:[《Winograd模式挑战》(The Winograd Schema Challenge)](https://cs.nyu.edu/~davise/papers/WinogradSchemas/WS.html)。
[Winograd自然语言推理数据集(Winograd NLI)](https://dl.fbaipublicfiles.com/glue/data/WNLI.zip)包含855个句子对,其中第一个句子存在歧义,第二个句子给出其可能的解释,标签用于指示该解释是否正确(1为正确,0为错误)。
本数据集是针对[GLUE基准(GLUE Benchmark)](https://gluebenchmark.com/tasks)发布的Winograd自然语言推理数据集的专业西班牙语翻译版本。
原始数据集与本翻译版本均采用[知识共享署名4.0国际许可协议(Creative Commons Attribution 4.0 International License)](https://creativecommons.org/licenses/by/4.0/)进行授权。
**更新(2024-05-27):** WNLI-ES的验证集划分曾存在标签反转问题,现已修复以匹配当前英文WNLI验证集划分(https://huggingface.co/datasets/nyu-mll/glue/viewer/wnli/validation)。
### 支持任务与基准榜
文本蕴涵、文本分类、语言模型。
### 语言
* 西班牙语(es)
## 数据集结构
### 数据实例
三个TSV文件。
### 数据字段
- index:索引
- sentence 1:句子对中的第一个句子
- sentence 2:句子对中的第二个句子
- label:两个句子间的关系:
* 0:第二个句子未构成对第一个句子的正确解释(中立)
* 1:第二个句子构成对第一个句子的正确解释(蕴涵)
### 数据划分
- wnli-train-es.csv:636个句子对
- wnli-dev-es.csv:72个句子对
- wnli-test-shuffled-es.csv:147个句子对
## 数据集创建
### 数据集构建初衷
我们翻译该数据集旨在推动西班牙语语言模型的发展。
### 源数据
- [GLUE基准官网(GLUE Benchmark site)](https://gluebenchmark.com)
#### 初始数据收集与标准化
本数据集是由[巴塞罗那超级计算中心文本挖掘单元(BSC TeMU)](https://temu.bsc.es/)在[Plan-TL计划(Plan-TL)](https://plantl.mineco.gob.es/Paginas/index.aspx)框架下委托完成的[WNLI数据集](https://cs.nyu.edu/~davise/papers/WinogradSchemas/WS.html)的专业西班牙语翻译版本。如需了解Winograd自然语言推理数据集的创建细节,请访问[《Winograd模式挑战》官网](https://cs.nyu.edu/~davise/papers/WinogradSchemas/WS.html)。
#### 源语言生产者是谁?
如需了解Winograd自然语言推理数据集的创建细节,请访问[《Winograd模式挑战》官网](https://cs.nyu.edu/~davise/papers/WinogradSchemas/WS.html)。
### 标注信息
#### 标注流程
我们委托专业机构完成了[WNLI数据集](https://cs.nyu.edu/~davise/papers/WinogradSchemas/WS.html)的西班牙语专业翻译。
#### 标注者是谁?
翻译工作委托给了专业翻译机构。
### 个人与敏感信息
未包含任何个人或敏感信息。
## 数据使用注意事项
### 数据集的社会影响
本数据集有助于推动西班牙语语言模型的发展。
### 偏差讨论
[无]
### 其他已知局限
[无]
## 附加信息
### 数据集策展人
巴塞罗那超级计算中心文本挖掘单元(TeMU)(bsc-temu@bsc.es)。
如需进一步信息,请发送邮件至plantl-gob-es@bsc.es。
本项目由[西班牙数字化与人工智能国务秘书处(SEDIA)](https://avancedigital.mineco.gob.es/en-us/Paginas/index.aspx)在Plan-TL计划框架下资助。
### 许可信息
本作品采用[知识共享署名4.0国际许可协议(CC Attribution 4.0 International)](https://creativecommons.org/licenses/by/4.0/)进行授权。
版权归西班牙数字化与人工智能国务秘书处(SEDIA)所有(2022)
### 贡献信息
[无]
提供机构:
PlanTL-GOB-ES
原始信息汇总
WNLI-es 数据集概述
数据集描述
数据集总结
WNLI-es 数据集是 Winograd NLI 数据集的专业西班牙语翻译版本,包含 855 个句子对,每个句子对中的第一个句子包含一个歧义,第二个句子提供一个可能的解释,标签指示该解释是否正确(1 表示正确,0 表示不正确)。该数据集旨在促进西班牙语语言模型的发展。
支持的任务和排行榜
- 文本蕴含
- 文本分类
- 语言模型
语言
- 西班牙语 (es)
数据集结构
数据实例
数据集包含三个 tsv 文件。
数据字段
- index
- sentence 1: 句子对中的第一个句子
- sentence 2: 句子对中的第二个句子
- label: 两个句子之间的关系
- 0: 第二个句子不提供第一个句子的正确解释(中性)
- 1: 第二个句子提供第一个句子的正确解释(蕴含)
数据分割
- wnli-train-es.csv: 636 个句子对
- wnli-dev-es.csv: 72 个句子对
- wnli-test-shuffled-es.csv: 147 个句子对
数据集创建
精选理由
数据集的翻译旨在为西班牙语语言模型的发展做出贡献。
源数据
数据集是 WNLI 数据集的专业西班牙语翻译,由 BSC TeMU 在 Plan-TL 框架内委托进行。
注释
注释过程
数据集的西班牙语翻译由专业翻译机构完成。
注释者
翻译工作由专业翻译机构执行。
个人和敏感信息
数据集中不包含个人或敏感信息。



