bentrevett/multi30k
收藏Hugging Face2023-03-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bentrevett/multi30k
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含Multi30k数据集,源自[此处](https://www.statmt.org/wmt16/multimodal-task.html)的“任务1”数据集。每个例子由一个英语句子和其对应的德语翻译组成。数据集分为训练集、验证集和测试集,分别包含29,000、1,014和1,000个实例。
该数据集包含Multi30k数据集,源自[此处](https://www.statmt.org/wmt16/multimodal-task.html)的“任务1”数据集。每个例子由一个英语句子和其对应的德语翻译组成。数据集分为训练集、验证集和测试集,分别包含29,000、1,014和1,000个实例。
提供机构:
bentrevett
原始信息汇总
Multi30k 数据集概述
数据集基本信息
- 任务类别:翻译
- 语言:英语(en)、德语(de)
- 数据集大小:10,000 < n < 100,000
数据集描述
Multi30k 数据集包含英语和德语的翻译对。每个示例包含一个英语句子(en)及其对应的德语翻译(de)。
数据分割
- 训练集:29,000 个实例
- 验证集:1,014 个实例
- 测试集:1,000 个实例
引用信息
@article{elliott-EtAl:2016:VL16, author = {{Elliott}, D. and {Frank}, S. and {Simaan}, K. and {Specia}, L.}, title = {Multi30K: Multilingual English-German Image Descriptions}, booktitle = {Proceedings of the 5th Workshop on Vision and Language}, year = {2016}, pages = {70--74}, year = 2016 }
搜集汇总
数据集介绍

背景与挑战
背景概述
Multi30k是一个英语-德语平行语料库,专门用于机器翻译任务,包含31,014个句子对,分为训练集、验证集和测试集。数据集提供英语句子及其德语翻译,适用于训练和评估翻译模型,具有中等规模,支持文本模态,格式为json。
以上内容由遇见数据集搜集并总结生成



