Multi30k

github2024-04-29 更新2024-05-31 收录

下载链接：

https://github.com/multi30k/dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Multi30k数据集是一个多语言的英语-德语图像描述数据集，包含训练、验证和测试数据，支持多种语言如英语、德语、法语和捷克语。数据集提供了详细的统计信息和文件结构，以及如何获取和使用这些数据的指导。

The Multi30k dataset is a multilingual English-German image captioning dataset, encompassing training, validation, and test data, and supports multiple languages such as English, German, French, and Czech. The dataset provides detailed statistical information and file structure, along with guidance on how to access and utilize the data.

创建时间：

2018-01-12

原始信息汇总

数据集概述

名称: Multi30k Data Repository

内容:

语言: 英语 (en), 德语 (de), 法语 (fr), 捷克语 (cs)
数据结构:
- 训练集: 29000句，各语言分别统计词数和平均词/句
- 验证集: 1014句，各语言分别统计词数和平均词/句
- 测试集:
  - 2016 Flickr: 1000句，各语言分别统计词数和平均词/句
  - 2017 Flickr: 1000句，各语言分别统计词数和平均词/句
  - 2017 MS COCO: 461句，各语言分别统计词数和平均词/句

文件结构:

原始文件: 位于 data/task1/raw
分词文件: 位于 data/task1/tok，使用脚本 scripts/task1-tokenize.sh 生成

额外资源:

视觉特征: 可从Google Drive下载
原始图像: 可通过特定链接请求

使用指南:

克隆仓库时需使用 --recursive 标志以确保所有内容正确获取

引用信息:

英语和德语数据: 引用论文 W16-3210
法语数据及2017年测试数据: 引用论文 W17-4718
捷克语数据: 引用论文 barrault2018findings

搜集汇总

数据集介绍

构建方式

Multi30k数据集的构建基于多语言的图像描述任务，涵盖了英语、德语、法语和捷克语四种语言。数据集的原始文件和分词文件分别存储在不同的目录中，并通过预处理脚本进行处理，以确保数据的一致性和可复现性。此外，数据集还包含了从Flickr30k和MS COCO数据集中提取的视觉特征，这些特征与文本描述相结合，构成了多模态数据集的基础。

特点

Multi30k数据集的主要特点在于其多语言和多模态的特性。数据集不仅包含了多种语言的文本描述，还结合了图像的视觉特征，使得研究者可以在多模态机器翻译和图像描述生成等领域进行深入研究。此外，数据集提供了详细的统计信息，包括每种语言的句子数量、单词数量以及平均每句的单词数，便于研究者进行数据分析和模型评估。

使用方法

使用Multi30k数据集时，用户可以通过递归克隆GitHub仓库来获取完整的数据集和相关脚本。数据集的文本部分已经过分词处理，用户可以直接使用这些分词文件进行模型训练和评估。对于视觉特征，用户可以从Google Drive下载预提取的特征文件，或请求原始图像数据。此外，数据集还支持在Codalab平台上进行模型评估，用户可以参与相关的竞赛以测试其模型的性能。

背景与挑战

背景概述

Multi30k数据集是由Desmond Elliott、Stella Frank、Khalil Sima'an和Lucia Specia等研究人员于2016年创建的，旨在推动多语言图像描述和多模态机器翻译领域的发展。该数据集包含了英语、德语、法语和捷克语四种语言的图像描述，涵盖了从Flickr30k数据集中提取的图像及其对应的描述文本。Multi30k的创建不仅为多语言图像描述提供了丰富的资源，还为多模态机器翻译的研究提供了基准数据集，极大地促进了相关领域的技术进步。

当前挑战

Multi30k数据集在构建过程中面临了多重挑战。首先，多语言数据的收集与对齐是一个复杂的过程，尤其是不同语言之间的语义一致性问题。其次，图像描述的生成需要结合视觉特征与语言模型，如何确保描述的准确性与多样性是一个技术难点。此外，数据集的扩展与更新，如引入新的语言和测试集，也带来了数据管理和一致性处理上的挑战。这些挑战不仅推动了数据集的完善，也为多模态机器翻译和图像描述领域的研究提供了新的方向。

常用场景

经典使用场景

Multi30k数据集在多语言机器翻译领域中被广泛应用，尤其是在英语、德语、法语和捷克语之间的图像描述翻译任务中。该数据集通过提供多语言的图像描述，使得研究者能够训练和评估跨语言的图像描述生成模型，从而推动多模态机器翻译技术的发展。

衍生相关工作

基于Multi30k数据集，研究者们开展了多项经典工作，包括多模态机器翻译模型的优化、跨语言图像描述生成的改进以及多语言数据集的扩展研究。这些工作不仅提升了翻译模型的性能，还为多语言和多模态领域的研究提供了新的思路和方法。

数据集最近研究