GroNLP/ik-nlp-22_transqe

Name: GroNLP/ik-nlp-22_transqe
Creator: GroNLP
Published: 2022-10-21 08:06:50
License: 暂无描述

Hugging Face2022-10-21 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/GroNLP/ik-nlp-22_transqe

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了完整的e-SNLI数据集，通过Helsinki-NLP/opus-mt-en-nl神经机器翻译模型自动翻译成荷兰语。每个字段的翻译都使用Unbabel的COMET指标的无参考版本进行了质量评估。该数据集主要用于2022年格罗宁根大学信息科学硕士课程的自然语言处理课程的最终项目。数据集包含英语和荷兰语两种语言，分为训练集、验证集和测试集，每个实例包含原始英语文本、翻译后的荷兰语文本、标签以及翻译质量评分。

提供机构：

GroNLP

原始信息汇总

数据集概述

数据集名称

名称: iknlp22-transqe
全称: IK-NLP-22 Project 3: Translation Quality-driven Data Selection for Natural Language Inference

数据集描述

摘要: 本数据集包含完整的e-SNLI数据集，通过Helsinki-NLP/opus-mt-en-nl神经机器翻译模型自动翻译为荷兰语，并对每个字段的翻译进行了无参考版本的COMET质量估计评分。
语言: 英语 (en) 和荷兰语 (nl)
许可: Apache-2.0
任务类别: 文本分类
任务ID: 自然语言推理
标签: 质量估计

数据集结构

数据实例: 数据集包含默认配置plain_text，包含train、validation和test三个分割。每个分割包含多个字段，如premise_en、premise_nl、hypothesis_en、hypothesis_nl等，以及质量估计分数。
数据分割:
- train: 549,367条记录
- validation: 9,842条记录
- test: 9,824条记录

数据示例

json { "premise_en": "A young woman wearing a yellow sweater and black pants is ice skating outdoors.", "premise_nl": "Een jonge vrouw met een gele trui en zwarte broek schaatst buiten.", "hypothesis_en": "a woman is practicing for the olympics", "hypothesis_nl": "een vrouw oefent voor de Olympische Spelen", "label": 1, "explanation_1_en": "You can not infer its for the Olympics.", "explanation_1_nl": "Het is niet voor de Olympische Spelen.", "explanation_2_en": "Just because a girl is skating outdoors does not mean she is practicing for the Olympics.", "explanation_2_nl": "Alleen omdat een meisje buiten schaatst betekent niet dat ze oefent voor de Olympische Spelen.", "explanation_3_en": "Ice skating doesnt imply practicing for the olympics.", "explanation_3_nl": "Schaatsen betekent niet oefenen voor de Olympische Spelen.", "da_premise": "0.6099", "mqm_premise": "0.1298", "da_hypothesis": "0.8504", "mqm_hypothesis": "0.1521", "da_explanation_1": "0.0001", "mqm_explanation_1": "0.1237", "da_explanation_2": "0.4017", "mqm_explanation_2": "0.1467", "da_explanation_3": "0.6069", "mqm_explanation_3": "0.1389" }

数据集创建

创建过程: 使用Helsinki-NLP/opus-mt-en-nl模型将e-SNLI数据集的每个字段翻译为荷兰语，并使用无参考版本的COMET进行质量估计评分。

许可证信息

许可证: Apache 2.0 License

5,000+

优质数据集

54 个

任务类型

进入经典数据集