Multi30k Dataset

github2020-03-10 更新2024-05-31 收录

下载链接：

https://github.com/viridiano/dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Multi30k数据集是一个多语言的英语-德语图像描述数据集，包含训练、验证和测试数据，支持多种语言如英语、德语、法语和捷克语。数据集提供了详细的统计信息和使用指南，适用于多模态机器翻译和多语言图像描述的研究。

The Multi30k dataset is a multilingual English-German image description dataset, encompassing training, validation, and test data. It supports multiple languages such as English, German, French, and Czech. The dataset provides detailed statistical information and usage guidelines, making it suitable for research in multimodal machine translation and multilingual image description.

创建时间：

2020-03-10

原始信息汇总

数据集概述

数据集名称

Multi30k Data Repository

数据集内容

原始文件：位于data/task1/raw。
分词文件：位于data/task1/tok，使用scripts/task1-tokenize.sh脚本处理。

数据集统计

训练集：
- 英语：29000句，377534词，平均每句13.0词。
- 德语：29000句，360706词，平均每句12.4词。
- 法语：29000句，409845词，平均每句14.1词。
- 捷克语：29000句，297212词，平均每句10.2词。
验证集：
- 英语：1014句，13308词，平均每句13.1词。
- 德语：1014句，12828词，平均每句12.7词。
- 法语：1014句，14381词，平均每句14.2词。
- 捷克语：1014句，10342词，平均每句10.2词。
测试集：
- 2016 Flickr：
  - 英语：1000句，12968词，平均每句13.0词。
  - 德语：1000句，12103词，平均每句12.1词。
  - 法语：1000句，13988词，平均每句14.0词。
  - 捷克语：1000句，10497词，平均每句10.5词。
- 2017 Flickr：
  - 英语：1000句，11376词，平均每句11.4词。
  - 德语：1000句，10758词，平均每句10.8词。
  - 法语：1000句，12596词，平均每句12.6词。
- 2017 MSCOCO：
  - 英语：461句，5239词，平均每句11.4词。
  - 德语：461句，5158词，平均每句11.2词。
  - 法语：461句，5710词，平均每句12.4词。

引用信息

英语和德语数据：

@InProceedings{W16-3210, author = "Elliott, Desmond and Frank, Stella and Simaan, Khalil and Specia, Lucia", title = "Multi30K: Multilingual English-German Image Descriptions", booktitle = "Proceedings of the 5th Workshop on Vision and Language", year = "2016", publisher = "Association for Computational Linguistics", pages = "70--74", location = "Berlin, Germany", doi = "10.18653/v1/W16-3210", url = "http://www.aclweb.org/anthology/W16-3210" }
法语数据，模糊COCO评估数据，和2017测试数据：

@InProceedings{elliott-EtAl:2017:WMT, author = {Elliott, Desmond and Frank, Stella and Barrault, Lo"{i}c and Bougares, Fethi and Specia, Lucia}, title = {Findings of the Second Shared Task on Multimodal Machine Translation and Multilingual Image Description}, booktitle = {Proceedings of the Second Conference on Machine Translation, Volume 2: Shared Task Papers}, month = {September}, year = {2017}, address = {Copenhagen, Denmark}, publisher = {Association for Computational Linguistics}, pages = {215--233}, url = {http://www.aclweb.org/anthology/W17-4718} }
捷克语数据：

@inproceedings{barrault2018findings, title={Findings of the Third Shared Task on Multimodal Machine Translation}, author={Barrault, Lo{"i}c and Bougares, Fethi and Specia, Lucia and Lala, Chiraag and Elliott, Desmond and Frank, Stella}, booktitle={Proceedings of the Third Conference on Machine Translation: Shared Task Papers}, pages={304--323}, year={2018} }

搜集汇总

数据集介绍

构建方式

Multi30k数据集的构建，首先涉及多语言图像描述的收集。数据集利用图像的视觉特征，这些特征可从Google Drive下载或请求原始图像。数据集包括英语、德语、法语和捷克语四种语言的描述，通过子词单元化方法进行预处理，以确保语言间的一致性和翻译任务的准确性。

特点

该数据集的特点在于其多语言支持，为研究者提供了在图像描述翻译任务上进行跨语言研究的可能性。数据集规模适中，包含训练、验证和测试集，且测试集进一步细分为不同版本，以适应不同的评估需求。此外，数据集还提供了丰富的统计数据，方便用户理解数据分布和语言特性。

使用方法

使用Multi30k数据集，用户需首先通过提供的git命令克隆仓库，并使用递归标志以获取子模块。数据预处理脚本已提供，用户可以运行相应的脚本进行分词处理。对于模型评估，用户可通过Codalab平台上的竞赛来测试模型在2018年测试集上的性能。在使用数据集进行研究的场合，引用相关论文是必要的学术规范。

背景与挑战

背景概述

Multi30k数据集是一个针对多语言图像描述任务的大型数据集，创建于2016年，由Desmond Elliott、Stella Frank、Khalil Sima'an和Lucia Specia等研究人员共同开发。该数据集旨在促进多模态机器翻译和图像描述的跨语言研究，包含了英语、德语、法语和捷克语四种语言的图像描述。它为机器学习模型提供了大量的平行语料，对于图像描述生成、机器翻译以及多模态学习等领域的研究具有重要的推动作用。

当前挑战

在研究领域问题方面，Multi30k数据集面临的挑战包括如何提高图像描述的准确性和流畅性，以及如何在不同语言间实现高效准确的翻译。构建过程中遇到的挑战包括数据的收集、清洗、对齐以及预处理等步骤，特别是确保不同语言间的描述能够精确对应图像内容，同时保持语言的自然性和多样性。此外，如何处理图像描述中的模糊性和歧义性，以及如何设计有效的评估机制来衡量模型在多语言环境下的表现，也是当前研究的重要挑战。

常用场景

经典使用场景

Multi30k数据集作为多语言图像描述的基准数据集，其经典使用场景主要在于训练和评估多模态机器翻译模型。该数据集包含英语、德语、法语和捷克语四种语言的图像描述，使得研究者能够开展跨语言图像描述生成任务，提升机器翻译模型的性能和准确性。

解决学术问题

该数据集解决了多模态机器翻译中的多语言对齐和图像描述一致性问题，为学术研究提供了可靠的基础。通过Multi30k，研究者能够评估模型在不同语言对之间的翻译质量，以及图像描述与文本描述之间的匹配程度，进而推动多模态学习领域的发展。

衍生相关工作

基于Multi30k数据集，研究者衍生出了一系列相关工作，包括但不限于多模态机器翻译的性能评估方法、跨语言图像描述的生成模型、以及多语言信息检索等。这些研究进一步扩展了多模态学习在自然语言处理领域的应用范围，并为相关技术的商业化应用提供了理论支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集