five

bentrevett/multi30k

收藏
Hugging Face2023-03-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bentrevett/multi30k
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含Multi30k数据集,源自[此处](https://www.statmt.org/wmt16/multimodal-task.html)的“任务1”数据集。每个例子由一个英语句子和其对应的德语翻译组成。数据集分为训练集、验证集和测试集,分别包含29,000、1,014和1,000个实例。

该数据集包含Multi30k数据集,源自[此处](https://www.statmt.org/wmt16/multimodal-task.html)的“任务1”数据集。每个例子由一个英语句子和其对应的德语翻译组成。数据集分为训练集、验证集和测试集,分别包含29,000、1,014和1,000个实例。
提供机构:
bentrevett
原始信息汇总

Multi30k 数据集概述

数据集基本信息

  • 任务类别:翻译
  • 语言:英语(en)、德语(de)
  • 数据集大小:10,000 < n < 100,000

数据集描述

Multi30k 数据集包含英语和德语的翻译对。每个示例包含一个英语句子(en)及其对应的德语翻译(de)。

数据分割

  • 训练集:29,000 个实例
  • 验证集:1,014 个实例
  • 测试集:1,000 个实例

引用信息

@article{elliott-EtAl:2016:VL16, author = {{Elliott}, D. and {Frank}, S. and {Simaan}, K. and {Specia}, L.}, title = {Multi30K: Multilingual English-German Image Descriptions}, booktitle = {Proceedings of the 5th Workshop on Vision and Language}, year = {2016}, pages = {70--74}, year = 2016 }

搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
Multi30k是一个英语-德语平行语料库,专门用于机器翻译任务,包含31,014个句子对,分为训练集、验证集和测试集。数据集提供英语句子及其德语翻译,适用于训练和评估翻译模型,具有中等规模,支持文本模态,格式为json。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作