GroNLP/ik-nlp-22_transqe
收藏数据集概述
数据集名称
- 名称: iknlp22-transqe
- 全称: IK-NLP-22 Project 3: Translation Quality-driven Data Selection for Natural Language Inference
数据集描述
- 摘要: 本数据集包含完整的e-SNLI数据集,通过Helsinki-NLP/opus-mt-en-nl神经机器翻译模型自动翻译为荷兰语,并对每个字段的翻译进行了无参考版本的COMET质量估计评分。
- 语言: 英语 (
en) 和 荷兰语 (nl) - 许可: Apache-2.0
- 任务类别: 文本分类
- 任务ID: 自然语言推理
- 标签: 质量估计
数据集结构
- 数据实例: 数据集包含默认配置
plain_text,包含train、validation和test三个分割。每个分割包含多个字段,如premise_en、premise_nl、hypothesis_en、hypothesis_nl等,以及质量估计分数。 - 数据分割:
train: 549,367条记录validation: 9,842条记录test: 9,824条记录
数据示例
json { "premise_en": "A young woman wearing a yellow sweater and black pants is ice skating outdoors.", "premise_nl": "Een jonge vrouw met een gele trui en zwarte broek schaatst buiten.", "hypothesis_en": "a woman is practicing for the olympics", "hypothesis_nl": "een vrouw oefent voor de Olympische Spelen", "label": 1, "explanation_1_en": "You can not infer its for the Olympics.", "explanation_1_nl": "Het is niet voor de Olympische Spelen.", "explanation_2_en": "Just because a girl is skating outdoors does not mean she is practicing for the Olympics.", "explanation_2_nl": "Alleen omdat een meisje buiten schaatst betekent niet dat ze oefent voor de Olympische Spelen.", "explanation_3_en": "Ice skating doesnt imply practicing for the olympics.", "explanation_3_nl": "Schaatsen betekent niet oefenen voor de Olympische Spelen.", "da_premise": "0.6099", "mqm_premise": "0.1298", "da_hypothesis": "0.8504", "mqm_hypothesis": "0.1521", "da_explanation_1": "0.0001", "mqm_explanation_1": "0.1237", "da_explanation_2": "0.4017", "mqm_explanation_2": "0.1467", "da_explanation_3": "0.6069", "mqm_explanation_3": "0.1389" }
数据集创建
- 创建过程: 使用Helsinki-NLP/opus-mt-en-nl模型将e-SNLI数据集的每个字段翻译为荷兰语,并使用无参考版本的COMET进行质量估计评分。
许可证信息
- 许可证: Apache 2.0 License



