3AM

Name: 3AM
Creator: 澳门大学计算机与信息科学系NLP2CT实验室
Published: 2024-04-29 12:01:30
License: 暂无描述

arXiv2024-04-29 更新2024-06-21 收录

下载链接：

https://github.com/MaxyLee/3AM

下载链接

链接失效反馈

官方服务：

资源简介：

3AM是一个包含26,000对英汉平行句子和相应图像的多模态机器翻译数据集，由澳门大学计算机与信息科学系NLP2CT实验室创建。该数据集设计用于包含更多的歧义和更广泛的标题与图像种类，通过使用词义消歧模型从视觉与语言数据集中选择歧义数据，形成更具挑战性的数据集。3AM旨在通过提供丰富的视觉信息，帮助模型更好地理解视觉内容，从而提高翻译质量。该数据集适用于多模态学习和机器翻译领域的研究，特别是解决视觉信息在翻译中的有效利用问题。

3AM is a multimodal machine translation dataset containing 26,000 pairs of English-Chinese parallel sentences and their corresponding images, created by the NLP2CT Laboratory, Department of Computer and Information Science, University of Macau. This dataset is designed to include more ambiguities and a broader range of captions and image types. It selects ambiguous samples from visual-language datasets via word sense disambiguation models to build a more challenging benchmark dataset. The goal of 3AM is to assist models in better comprehending visual content by supplying abundant visual information, thus enhancing translation quality. This dataset is applicable to research in the domains of multimodal learning and machine translation, especially for solving the problem of effective utilization of visual information in translation.

提供机构：

澳门大学计算机与信息科学系NLP2CT实验室

创建时间：

2024-04-29

搜集汇总

数据集介绍

构建方式

在构建3AM数据集的过程中，研究团队采用了一种半自动化的方法，旨在从现有的视觉与语言数据集中筛选出具有高度歧义性的样本。首先，从多个视觉与语言数据源（如SNLI-VE、COCO、SBU Captions、Conceptual Captions和Conceptual 12M）中收集原始数据，并经过基于规则和语言模型的过滤步骤，以确保文本质量和图像相关性。随后，利用从现有词义消歧数据集中提取的歧义词汇构建词义词典，并通过词义消歧模型对包含这些词汇的句子进行评分和排序，从而识别出最可能具有歧义性的数据。最后，由专业翻译人员根据图像内容将英文句子翻译成中文，并经过严格的质量控制，最终形成了包含约26,000个平行句对的数据集。

特点

3AM数据集的核心特点在于其高度的歧义性和丰富的视觉概念多样性。与现有的多模态机器翻译数据集相比，该数据集通过精心筛选，包含了更多在文本上具有多重含义的词汇，例如“palm”既可指“手掌”也可指“棕榈树”，迫使模型必须依赖视觉信息进行消歧。此外，数据集的文本部分在词汇丰富度和句子长度上均表现出更高的复杂性，涵盖了更广泛的独特名词和动词。图像方面，3AM展示了更高的感知多样性和对象分布均匀性，确保了视觉内容的广泛覆盖，从而为模型提供了更具挑战性的学习环境。

使用方法

3AM数据集主要用于评估和提升多模态机器翻译模型在利用视觉信息方面的能力。研究人员可以将该数据集作为训练和测试基准，通过对比纯文本模型与多模态模型在歧义句子翻译上的表现，验证视觉特征的有效性。具体而言，模型需要同时处理源语言句子和对应的图像，以生成准确的目标语言翻译。在评估过程中，可采用BLEU、BERT-Score、METEOR和TER等自动指标，并结合对抗性评估方法（如图像感知度计算）来量化模型对视觉信息的依赖程度。此外，该数据集也可用于探索视觉理解在多模态学习中的更广泛作用，推动相关领域的研究进展。

背景与挑战

背景概述

在跨模态人工智能研究领域，多模态机器翻译旨在通过融合视觉信息提升翻译质量，然而现有数据集普遍存在视觉信息贡献度不足的瓶颈。2024年4月，由澳门大学、哈尔滨工业大学（深圳）等机构联合发布的3AM数据集应运而生，该数据集包含2.6万条英中平行句对及对应图像，其核心创新在于通过词义消歧模型筛选歧义性数据，构建了视觉概念更丰富、语义歧义性更强的评估基准。该研究直面多模态模型过度依赖语言先验而忽视视觉理解的根本问题，为推动多模态机器翻译从表面性能向深层跨模态理解转变提供了关键数据支撑。

当前挑战

3AM数据集致力于解决多模态机器翻译中视觉信息利用不足的核心挑战。传统数据集因文本信息过于明确，导致模型仅凭语言先验即可获得良好表现，无法有效评估视觉理解能力。3AM通过引入高歧义性样本，迫使模型必须依赖图像信息进行词义消歧，从而真实检验跨模态融合效能。在构建过程中，研究团队面临双重挑战：一是需从海量视觉-语言数据中精准筛选兼具歧义性与视觉相关性的样本，这依赖于高效的词义消歧模型与多源数据融合策略；二是保障数据质量与多样性，需设计多层过滤机制消除噪声，并通过人工标注确保翻译结果与视觉内容的严格对齐，最终形成兼具挑战性与可靠性的评估基准。

常用场景

经典使用场景

在跨模态机器翻译研究领域，3AM数据集被广泛用于评估模型对视觉信息的真实利用能力。该数据集通过精心设计的歧义性句子-图像对，迫使翻译模型必须依赖视觉线索来消解文本中的多义词歧义，例如区分‘palm’一词在‘棕榈树’与‘手掌’之间的正确含义。这一特性使其成为检验多模态翻译模型是否真正融合视觉语义而非仅依赖语言先验的黄金标准测试平台。

解决学术问题

3AM数据集有效解决了多模态机器翻译中长期存在的视觉信息利用不足的核心学术问题。传统数据集因视觉信息贡献微弱，导致模型仅凭文本先验即可获得良好表现，掩盖了其视觉理解能力的真实缺陷。该数据集通过引入高歧义性样本，打破了语言先验的强主导地位，为量化评估视觉特征在翻译决策中的实际作用提供了可靠基准，推动了该领域从表象性能评估向本质能力衡量的范式转变。

衍生相关工作

3AM数据集的发布催生了一系列聚焦于视觉-语言细粒度对齐的衍生研究。学者们基于其构建了更精细的评估协议，如对抗性视觉感知测试，以量化模型对视觉信息的敏感度。同时，该数据集启发了对多模态融合机制的新探索，例如开发更具选择性的视觉注意力架构，以及研究如何在预训练模型中更有效地注入视觉grounding能力。这些工作共同深化了对多模态翻译中视觉信息融合机理的理解。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集