five

GroNLP/ik-nlp-22_transqe

收藏
Hugging Face2022-10-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/GroNLP/ik-nlp-22_transqe
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了完整的e-SNLI数据集,通过Helsinki-NLP/opus-mt-en-nl神经机器翻译模型自动翻译成荷兰语。每个字段的翻译都使用Unbabel的COMET指标的无参考版本进行了质量评估。该数据集主要用于2022年格罗宁根大学信息科学硕士课程的自然语言处理课程的最终项目。数据集包含英语和荷兰语两种语言,分为训练集、验证集和测试集,每个实例包含原始英语文本、翻译后的荷兰语文本、标签以及翻译质量评分。
提供机构:
GroNLP
原始信息汇总

数据集概述

数据集名称

  • 名称: iknlp22-transqe
  • 全称: IK-NLP-22 Project 3: Translation Quality-driven Data Selection for Natural Language Inference

数据集描述

  • 摘要: 本数据集包含完整的e-SNLI数据集,通过Helsinki-NLP/opus-mt-en-nl神经机器翻译模型自动翻译为荷兰语,并对每个字段的翻译进行了无参考版本的COMET质量估计评分。
  • 语言: 英语 (en) 和 荷兰语 (nl)
  • 许可: Apache-2.0
  • 任务类别: 文本分类
  • 任务ID: 自然语言推理
  • 标签: 质量估计

数据集结构

  • 数据实例: 数据集包含默认配置plain_text,包含trainvalidationtest三个分割。每个分割包含多个字段,如premise_enpremise_nlhypothesis_enhypothesis_nl等,以及质量估计分数。
  • 数据分割:
    • train: 549,367条记录
    • validation: 9,842条记录
    • test: 9,824条记录

数据示例

json { "premise_en": "A young woman wearing a yellow sweater and black pants is ice skating outdoors.", "premise_nl": "Een jonge vrouw met een gele trui en zwarte broek schaatst buiten.", "hypothesis_en": "a woman is practicing for the olympics", "hypothesis_nl": "een vrouw oefent voor de Olympische Spelen", "label": 1, "explanation_1_en": "You can not infer its for the Olympics.", "explanation_1_nl": "Het is niet voor de Olympische Spelen.", "explanation_2_en": "Just because a girl is skating outdoors does not mean she is practicing for the Olympics.", "explanation_2_nl": "Alleen omdat een meisje buiten schaatst betekent niet dat ze oefent voor de Olympische Spelen.", "explanation_3_en": "Ice skating doesnt imply practicing for the olympics.", "explanation_3_nl": "Schaatsen betekent niet oefenen voor de Olympische Spelen.", "da_premise": "0.6099", "mqm_premise": "0.1298", "da_hypothesis": "0.8504", "mqm_hypothesis": "0.1521", "da_explanation_1": "0.0001", "mqm_explanation_1": "0.1237", "da_explanation_2": "0.4017", "mqm_explanation_2": "0.1467", "da_explanation_3": "0.6069", "mqm_explanation_3": "0.1389" }

数据集创建

  • 创建过程: 使用Helsinki-NLP/opus-mt-en-nl模型将e-SNLI数据集的每个字段翻译为荷兰语,并使用无参考版本的COMET进行质量估计评分。

许可证信息

  • 许可证: Apache 2.0 License
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作