UMCU/MultiNLI_Dutch_translated_with_Marianmt
收藏Hugging Face2023-12-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/UMCU/MultiNLI_Dutch_translated_with_Marianmt
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是使用Maria NMT模型将英文的Multi-Genre Natural Language Inference (MultiNLI)语料库翻译成荷兰语的版本。数据集包含两个句子(sentence1和sentence2)、注释标签(annotator_labels)、类型(genre)、黄金标签(gold_label)和配对ID(pairID)。数据集分为训练集、验证集和测试集,分别包含380800、19392和19040个样本。数据集的许可证为creativeml-openrail-m,任务类别为句子相似性,语言为荷兰语,大小类别为100K<n<1M。
该数据集是使用Maria NMT模型将英文的Multi-Genre Natural Language Inference (MultiNLI)语料库翻译成荷兰语的版本。数据集包含两个句子(sentence1和sentence2)、注释标签(annotator_labels)、类型(genre)、黄金标签(gold_label)和配对ID(pairID)。数据集分为训练集、验证集和测试集,分别包含380800、19392和19040个样本。数据集的许可证为creativeml-openrail-m,任务类别为句子相似性,语言为荷兰语,大小类别为100K<n<1M。
提供机构:
UMCU
原始信息汇总
数据集概述
数据集配置
- 配置名称: default
- 数据文件路径:
- 训练集:
data/train-* - 验证集:
data/validation-* - 测试集:
data/test-*
- 训练集:
数据集信息
-
特征:
sentence1: 字符串类型sentence2: 字符串类型annotator_labels: 字符串序列genre: 字符串类型gold_label: 字符串类型pairID: 字符串类型
-
数据分割:
- 训练集:
- 字节数: 92877120
- 样本数: 380800
- 验证集:
- 字节数: 5903876
- 样本数: 19392
- 测试集:
- 字节数: 5321727
- 样本数: 19040
- 训练集:
-
数据集大小:
- 下载大小: 58511174 字节
- 数据集总大小: 104102723 字节
许可证
- 许可证类型: creativeml-openrail-m
任务类别
- 任务类别: sentence-similarity
语言
- 语言: 荷兰语 (nl)
数据集名称
- 数据集名称: Dutch MultiNLI(MM) using MariaNMT
数据集规模
- 规模: 100K<n<1M



