CAMMT

Name: CAMMT
Creator: MBZUAI
Published: 2025-05-30 18:42:44
License: 暂无描述

arXiv2025-05-30 更新2025-06-03 收录

下载链接：

https://huggingface.co/datasets/villacu/cammt

下载链接

链接失效反馈

官方服务：

资源简介：

CAMMT是一个由人类精心策划的多模态机器翻译基准数据集，包含超过5,800个图像及其英文和区域语言的平行字幕。该数据集覆盖了19种语言和23个地区。通过CAMMT，研究人员评估了五种视觉语言模型在仅文本和文本+图像设置下的翻译质量。结果表明，视觉上下文通常能提高翻译质量，特别是在处理文化特定物品、歧义消解和正确使用性别方面。CAMMT旨在支持构建和评估更具文化细微差别和地区差异的多模态翻译系统。

CAMMT is a human-curated benchmark dataset for multimodal machine translation, containing over 5,800 images paired with parallel subtitles in English and regional languages. This dataset covers 19 languages and 23 regions. Using CAMMT, researchers evaluated the translation quality of five vision-language models under two settings: text-only and text-plus-image. Results show that visual context generally improves translation quality, especially when handling culture-specific items, ambiguity resolution, and proper gender usage. CAMMT aims to support the development and evaluation of multimodal translation systems with greater cultural nuance and regional diversity.

提供机构：

MBZUAI

创建时间：

2025-05-30

原始信息汇总

数据集概述

基本信息

数据集名称: villacu/cammt
下载大小: 689642字节
数据集大小: 1379321字节

数据特征

数据集包含以下字段：

ID: 字符串类型
regional: 字符串类型
English: 字符串类型
Conserved_translation: 字符串类型
Substituted_translation: 字符串类型
Category: 字符串类型
Preferred_translation: 字符串类型

数据分块

数据集包含以下分块及其信息：

分块名称	字节大小	样本数量
es_mex	76789	323
bn_india	82705	286
om_eth	51601	214
ur_india	52795	220
ig_nga	36977	200
ur_pak	53728	216
zh_ch	49137	308
es_ecu	84685	362
sw_ken	93951	271
kor_sk	62831	290
ru_rus	52428	200
ta_india	69530	213
amh_eth	55026	234
jp_jap	47779	203
fil_phl	41161	203
ms_mys	61583	315
bg_bg	78441	369
es_chl	55839	234
pt_brz	62512	284
ar_egy	45666	203
ind_ind	40262	202
mr_india	62211	202
es_arg	61684	265

配置信息

配置名称: default
数据文件路径: 各分块数据文件路径以data/{分块名称}-*格式存储

搜集汇总

数据集介绍

构建方式

在跨文化机器翻译研究中，CAMMT数据集的构建采用了严谨的多模态方法。研究团队以CVQA视觉问答数据集为基础，通过Gemini 2.0 Flash模型将原始问答对转化为陈述式平行字幕对，涵盖英语和19种区域语言。为确保数据质量，项目组邀请各语言母语者进行三重校验：修正语法错误保证平行语料质量，维护文化特定项(CSIs)的准确性，并按文化相关性对语料进行分类标注。最终形成的5817组图像-字幕三元组，辅以1550组CSI策略对比样本，为文化感知的多模态翻译研究提供了坚实基础。

特点

CAMMT数据集最显著的特征在于其文化敏感的多模态架构。该数据集覆盖23个地区的19种语言，每个样本包含图像及其双语字幕，形成独特的视觉-语言对。特别设计的CSI标注体系能清晰区分文化无关内容、普通文化内容和含CSIs内容，并进一步细分可替代与不可替代的文化项。这种精细标注为研究视觉语境在文化项翻译中的作用提供了理想素材。数据集中约30%的样本包含强制翻译的CSIs，为探索文化专有项的翻译策略创造了天然实验环境。

使用方法

使用CAMMT进行多模态翻译研究时，建议采用对比实验设计。研究者可分别测试纯文本与图文结合的翻译效果，重点关注三个维度：文化专有项的保留率、性别标记的准确性以及语义歧义的消解程度。评估时需结合自动指标(BLEU/chrF++)与人工偏好评价，特别注意CSI保留和地域适应性表达等人工标注维度。对于VLMs模型，可通过提示工程明确要求系统参考视觉文化线索，系统比较NLLB等专业MT模型的差异表现。数据集中的CSI策略对照样本特别适合探究文化适应性与翻译忠实度的平衡问题。

背景与挑战

背景概述

CAMMT（Culturally Aware Multimodal Machine Translation Benchmark）是由MBZUAI等机构的研究团队于2025年提出的跨文化多模态机器翻译基准数据集。该数据集包含5,817组图像-文本三元组，覆盖19种语言和23个地区，旨在探索视觉语境在文化敏感翻译中的作用。其核心研究问题是解决传统机器翻译在文化特定项目（CSIs）处理上的局限性，通过引入图像作为文化语境代理，提升翻译的文化适应性。数据集构建基于CVQA视觉问答数据集，并经过专业语言工作者的严格人工标注，重点关注文化特定项目的保留与转换策略。

当前挑战

CAMMT面临的主要挑战体现在两个方面：领域问题层面，传统机器翻译难以处理文化特定项目（CSIs）的语义转换，如缺乏直接对应的文化概念、词汇歧义消解等问题；数据构建层面，需解决多语言平行语料对齐的复杂性、文化特定项目的标准化标注，以及视觉-语言模态的精准匹配等挑战。具体包括：1）文化特定项目的定义与标注一致性维护；2）19种语言在语法结构和文化表达上的差异性处理；3）图像作为文化语境的有效性验证；4）人工标注过程中翻译策略（保留vs替换）的主观偏好协调。

常用场景

经典使用场景

在跨文化机器翻译研究中，CAMMT数据集为评估视觉语言模型（VLMs）在结合图像与文本时的翻译能力提供了标准化测试平台。该数据集通过包含文化特异性项目（CSIs）的平行图像-文本三元组，使得研究者能够系统分析视觉上下文对翻译质量的影响，特别是在处理文化专有名词、性别标记和语义消歧等关键场景时。例如，模型需准确翻译墨西哥传统市场“tianguis”这类文化负载词，同时保持图像中服饰、建筑等非语言要素的语义一致性。

衍生相关工作

CAMMT直接推动了文化感知多模态翻译的研究浪潮。基于该数据集，后续研究如CVQA（2024）扩展了视觉问答任务的文化维度，而CulturalVQA（2024）则构建了更细粒度的区域视觉理解基准。在方法论层面，Gemini团队（2025）受其启发提出视觉锚定技术，显著提升低资源语言翻译性能。此外，其CSI分类体系被Yao等人（2023）改进为自动化文化术语抽取管道，广泛应用于跨文化对话系统开发。

数据集最近研究