Multi30k Dataset|多语言图像描述数据集|机器学习数据集

github2019-11-22 更新2024-05-31 收录

多语言图像描述

机器学习

下载链接：

https://github.com/ypengc7512/dataset

下载链接

链接失效反馈

资源简介：

Multi30k数据集是一个多语言的英语-德语图像描述数据集，包含训练、验证和测试集，支持多种语言如英语、德语、法语和捷克语。数据集提供了详细的统计信息，如句子数量、单词数量和平均单词数每句。此外，还提供了视觉特征和原始图像的下载链接。

The Multi30k dataset is a multilingual English-German image description dataset, encompassing training, validation, and test sets, and supports multiple languages such as English, German, French, and Czech. The dataset provides detailed statistical information, including the number of sentences, the number of words, and the average number of words per sentence. Additionally, it offers download links for visual features and original images.

创建时间：

2019-11-13

原始信息汇总

数据集概述

名称: Multi30k Data Repository

数据结构:

Task 1:
- Raw files: 位于 data/task1/raw
- Tokenized files: 位于 data/task1/tok，使用脚本 scripts/task1-tokenize.sh 进行预处理

数据集统计:

训练集:
- 英语 (en): 29000 句，377534 词，平均每句13.0词
- 德语 (de): 29000 句，360706 词，平均每句12.4词
- 法语 (fr): 29000 句，409845 词，平均每句14.1词
- 捷克语 (cs): 29000 句，297212 词，平均每句10.2词
验证集:
- 英语 (en): 1014 句，13308 词，平均每句13.1词
- 德语 (de): 1014 句，12828 词，平均每句12.7词
- 法语 (fr): 1014 句，14381 词，平均每句14.2词
- 捷克语 (cs): 1014 句，10342 词，平均每句10.2词
测试集:
- 2016 Flickr:
  - 英语 (en): 1000 句，12968 词，平均每句13.0词
  - 德语 (de): 1000 句，12103 词，平均每句12.1词
  - 法语 (fr): 1000 句，13988 词，平均每句14.0词
  - 捷克语 (cs): 1000 句，10497 词，平均每句10.5词
- 2017 Flickr:
  - 英语 (en): 1000 句，11376 词，平均每句11.4词
  - 德语 (de): 1000 句，10758 词，平均每句10.8词
  - 法语 (fr): 1000 句，12596 词，平均每句12.6词
- 2017 MSCOCO:
  - 英语 (en): 461 句，5239 词，平均每句11.4词
  - 德语 (de): 461 句，5158 词，平均每句11.2词
  - 法语 (fr): 461 句，5710 词，平均每句12.4词

评估:

可使用 Codalab 竞赛评估模型在2018测试集上的表现。

视觉特征:

预提取的视觉特征可从 Google Drive 下载。
原始图像可通过此链接请求。

引用:

英语和德语数据:

@InProceedings{W16-3210, author = "Elliott, Desmond and Frank, Stella and Simaan, Khalil and Specia, Lucia", title = "Multi30K: Multilingual English-German Image Descriptions", booktitle = "Proceedings of the 5th Workshop on Vision and Language", year = "2016", publisher = "Association for Computational Linguistics", pages = "70--74", location = "Berlin, Germany", doi = "10.18653/v1/W16-3210", url = "http://www.aclweb.org/anthology/W16-3210" }
法语数据、模糊COCO评估数据和2017测试数据:

@InProceedings{elliott-EtAl:2017:WMT, author = {Elliott, Desmond and Frank, Stella and Barrault, Lo"{i}c and Bougares, Fethi and Specia, Lucia}, title = {Findings of the Second Shared Task on Multimodal Machine Translation and Multilingual Image Description}, booktitle = {Proceedings of the Second Conference on Machine Translation, Volume 2: Shared Task Papers}, month = {September}, year = {2017}, address = {Copenhagen, Denmark}, publisher = {Association for Computational Linguistics}, pages = {215--233}, url = {http://www.aclweb.org/anthology/W17-4718} }
捷克语数据:

@inproceedings{barrault2018findings, title={Findings of the Third Shared Task on Multimodal Machine Translation}, author={Barrault, Lo{"i}c and Bougares, Fethi and Specia, Lucia and Lala, Chiraag and Elliott, Desmond and Frank, Stella}, booktitle={Proceedings of the Third Conference on Machine Translation: Shared Task Papers}, pages={304--323}, year={2018} }

AI搜集汇总

数据集介绍

构建方式

Multi30k数据集的构建基于多语言的图像描述任务，涵盖英语、德语、法语和捷克语四种语言。数据集通过收集和整理来自不同来源的图像及其对应的描述文本，确保了数据的多样性和广泛性。具体构建过程中，首先通过预处理脚本对原始文本进行分词处理，生成标准化的数据格式。随后，通过Google Drive和Illinois大学提供的资源，获取预提取的视觉特征和原始图像，进一步丰富了数据集的内容和应用场景。

特点

Multi30k数据集的主要特点在于其多语言和多模态的特性。数据集不仅包含了四种语言的文本描述，还结合了图像数据，为多模态机器翻译和图像描述任务提供了丰富的资源。此外，数据集的统计数据显示了不同语言版本在句子长度和词汇量上的差异，这为研究不同语言间的翻译和描述提供了宝贵的数据支持。

使用方法

使用Multi30k数据集时，用户可以通过递归克隆GitHub仓库获取完整的数据和预处理脚本。数据集分为训练集、验证集和测试集，用户可以根据需要选择合适的子集进行模型训练和评估。此外，数据集还提供了2018年的测试集，用户可以通过Codalab平台参与评估和竞赛。在使用过程中，建议用户遵循数据集的引用要求，以确保学术研究的规范性和数据来源的可靠性。

背景与挑战

背景概述

Multi30k数据集是由Desmond Elliott、Stella Frank、Khalil Sima'an和Lucia Specia等研究人员于2016年创建的，旨在推动多语言图像描述和多模态机器翻译领域的发展。该数据集包含了英语、德语、法语和捷克语四种语言的图像描述数据，涵盖了29000个训练句子、1014个验证句子和多个测试集。Multi30k数据集的推出，极大地促进了多语言图像描述和机器翻译技术的研究，为跨语言图像理解提供了丰富的资源。

当前挑战

Multi30k数据集在构建过程中面临了多语言数据对齐和预处理的挑战。首先，确保不同语言的图像描述在语义上的一致性是一个复杂的问题。其次，数据集的预处理，包括分词和子词分割，需要保持跨语言的一致性，以减少处理差异。此外，数据集的更新和扩展，如引入新的语言和测试集，也带来了管理和维护的挑战。这些挑战不仅影响了数据集的质量，也对后续研究提出了更高的要求。

常用场景

经典使用场景

在自然语言处理领域，Multi30k数据集被广泛应用于多语言机器翻译和图像描述生成任务。该数据集包含了英语、德语、法语和捷克语四种语言的图像描述，为研究人员提供了一个多语言、多模态的基准数据集。通过结合图像和文本数据，研究者可以训练和评估跨语言的图像描述生成模型，从而推动多语言机器翻译技术的发展。

解决学术问题

Multi30k数据集解决了多语言机器翻译和多模态学习中的关键学术问题。它为研究者提供了一个统一的多语言数据集，使得跨语言的图像描述生成和翻译模型的训练和评估成为可能。这不仅促进了多语言机器翻译技术的进步，还为多模态学习提供了丰富的数据资源，推动了相关领域的研究进展。

衍生相关工作

基于Multi30k数据集，研究者们开展了一系列相关工作。例如，一些研究通过该数据集训练多语言图像描述生成模型，进一步提升了模型的性能和泛化能力。此外，还有研究利用该数据集进行多模态学习的探索，开发了新的多模态融合算法。这些工作不仅丰富了多语言机器翻译和多模态学习的研究内容，还为实际应用提供了技术支持。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

5,000+

优质数据集

54 个

任务类型

进入经典数据集