UMCU/MultiNLI_Dutch_translated_with_Marianmt

Name: UMCU/MultiNLI_Dutch_translated_with_Marianmt
Creator: UMCU
Published: 2023-12-01 19:21:37
License: 暂无描述

Hugging Face2023-12-01 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/UMCU/MultiNLI_Dutch_translated_with_Marianmt

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是使用Maria NMT模型将英文的Multi-Genre Natural Language Inference (MultiNLI)语料库翻译成荷兰语的版本。数据集包含两个句子（sentence1和sentence2）、注释标签（annotator_labels）、类型（genre）、黄金标签（gold_label）和配对ID（pairID）。数据集分为训练集、验证集和测试集，分别包含380800、19392和19040个样本。数据集的许可证为creativeml-openrail-m，任务类别为句子相似性，语言为荷兰语，大小类别为100K<n<1M。

提供机构：

UMCU

原始信息汇总

数据集概述

数据集配置

配置名称: default
数据文件路径:
- 训练集: data/train-*
- 验证集: data/validation-*
- 测试集: data/test-*

数据集信息

特征:
- sentence1: 字符串类型
- sentence2: 字符串类型
- annotator_labels: 字符串序列
- genre: 字符串类型
- gold_label: 字符串类型
- pairID: 字符串类型
数据分割:
- 训练集:
  - 字节数: 92877120
  - 样本数: 380800
- 验证集:
  - 字节数: 5903876
  - 样本数: 19392
- 测试集:
  - 字节数: 5321727
  - 样本数: 19040
数据集大小:
- 下载大小: 58511174 字节
- 数据集总大小: 104102723 字节

许可证

许可证类型: creativeml-openrail-m

任务类别

任务类别: sentence-similarity

语言

语言: 荷兰语 (nl)

数据集名称

数据集名称: Dutch MultiNLI(MM) using MariaNMT

数据集规模

规模: 100K<n<1M

5,000+

优质数据集

54 个

任务类型

进入经典数据集