five

CAMMT

收藏
arXiv2025-05-30 更新2025-06-03 收录
下载链接:
https://huggingface.co/datasets/villacu/cammt
下载链接
链接失效反馈
官方服务:
资源简介:
CAMMT是一个由人类精心策划的多模态机器翻译基准数据集,包含超过5,800个图像及其英文和区域语言的平行字幕。该数据集覆盖了19种语言和23个地区。通过CAMMT,研究人员评估了五种视觉语言模型在仅文本和文本+图像设置下的翻译质量。结果表明,视觉上下文通常能提高翻译质量,特别是在处理文化特定物品、歧义消解和正确使用性别方面。CAMMT旨在支持构建和评估更具文化细微差别和地区差异的多模态翻译系统。

CAMMT is a human-curated benchmark dataset for multimodal machine translation, containing over 5,800 images paired with parallel subtitles in English and regional languages. This dataset covers 19 languages and 23 regions. Using CAMMT, researchers evaluated the translation quality of five vision-language models under two settings: text-only and text-plus-image. Results show that visual context generally improves translation quality, especially when handling culture-specific items, ambiguity resolution, and proper gender usage. CAMMT aims to support the development and evaluation of multimodal translation systems with greater cultural nuance and regional diversity.
提供机构:
MBZUAI
创建时间:
2025-05-30
原始信息汇总

数据集概述

基本信息

  • 数据集名称: villacu/cammt
  • 下载大小: 689642字节
  • 数据集大小: 1379321字节

数据特征

数据集包含以下字段:

  • ID: 字符串类型
  • regional: 字符串类型
  • English: 字符串类型
  • Conserved_translation: 字符串类型
  • Substituted_translation: 字符串类型
  • Category: 字符串类型
  • Preferred_translation: 字符串类型

数据分块

数据集包含以下分块及其信息:

分块名称 字节大小 样本数量
es_mex 76789 323
bn_india 82705 286
om_eth 51601 214
ur_india 52795 220
ig_nga 36977 200
ur_pak 53728 216
zh_ch 49137 308
es_ecu 84685 362
sw_ken 93951 271
kor_sk 62831 290
ru_rus 52428 200
ta_india 69530 213
amh_eth 55026 234
jp_jap 47779 203
fil_phl 41161 203
ms_mys 61583 315
bg_bg 78441 369
es_chl 55839 234
pt_brz 62512 284
ar_egy 45666 203
ind_ind 40262 202
mr_india 62211 202
es_arg 61684 265

配置信息

  • 配置名称: default
  • 数据文件路径: 各分块数据文件路径以data/{分块名称}-*格式存储
搜集汇总
数据集介绍
main_image_url
构建方式
在跨文化机器翻译研究中,CAMMT数据集的构建采用了严谨的多模态方法。研究团队以CVQA视觉问答数据集为基础,通过Gemini 2.0 Flash模型将原始问答对转化为陈述式平行字幕对,涵盖英语和19种区域语言。为确保数据质量,项目组邀请各语言母语者进行三重校验:修正语法错误保证平行语料质量,维护文化特定项(CSIs)的准确性,并按文化相关性对语料进行分类标注。最终形成的5817组图像-字幕三元组,辅以1550组CSI策略对比样本,为文化感知的多模态翻译研究提供了坚实基础。
特点
CAMMT数据集最显著的特征在于其文化敏感的多模态架构。该数据集覆盖23个地区的19种语言,每个样本包含图像及其双语字幕,形成独特的视觉-语言对。特别设计的CSI标注体系能清晰区分文化无关内容、普通文化内容和含CSIs内容,并进一步细分可替代与不可替代的文化项。这种精细标注为研究视觉语境在文化项翻译中的作用提供了理想素材。数据集中约30%的样本包含强制翻译的CSIs,为探索文化专有项的翻译策略创造了天然实验环境。
使用方法
使用CAMMT进行多模态翻译研究时,建议采用对比实验设计。研究者可分别测试纯文本与图文结合的翻译效果,重点关注三个维度:文化专有项的保留率、性别标记的准确性以及语义歧义的消解程度。评估时需结合自动指标(BLEU/chrF++)与人工偏好评价,特别注意CSI保留和地域适应性表达等人工标注维度。对于VLMs模型,可通过提示工程明确要求系统参考视觉文化线索,系统比较NLLB等专业MT模型的差异表现。数据集中的CSI策略对照样本特别适合探究文化适应性与翻译忠实度的平衡问题。
背景与挑战
背景概述
CAMMT(Culturally Aware Multimodal Machine Translation Benchmark)是由MBZUAI等机构的研究团队于2025年提出的跨文化多模态机器翻译基准数据集。该数据集包含5,817组图像-文本三元组,覆盖19种语言和23个地区,旨在探索视觉语境在文化敏感翻译中的作用。其核心研究问题是解决传统机器翻译在文化特定项目(CSIs)处理上的局限性,通过引入图像作为文化语境代理,提升翻译的文化适应性。数据集构建基于CVQA视觉问答数据集,并经过专业语言工作者的严格人工标注,重点关注文化特定项目的保留与转换策略。
当前挑战
CAMMT面临的主要挑战体现在两个方面:领域问题层面,传统机器翻译难以处理文化特定项目(CSIs)的语义转换,如缺乏直接对应的文化概念、词汇歧义消解等问题;数据构建层面,需解决多语言平行语料对齐的复杂性、文化特定项目的标准化标注,以及视觉-语言模态的精准匹配等挑战。具体包括:1)文化特定项目的定义与标注一致性维护;2)19种语言在语法结构和文化表达上的差异性处理;3)图像作为文化语境的有效性验证;4)人工标注过程中翻译策略(保留vs替换)的主观偏好协调。
常用场景
经典使用场景
在跨文化机器翻译研究中,CAMMT数据集为评估视觉语言模型(VLMs)在结合图像与文本时的翻译能力提供了标准化测试平台。该数据集通过包含文化特异性项目(CSIs)的平行图像-文本三元组,使得研究者能够系统分析视觉上下文对翻译质量的影响,特别是在处理文化专有名词、性别标记和语义消歧等关键场景时。例如,模型需准确翻译墨西哥传统市场“tianguis”这类文化负载词,同时保持图像中服饰、建筑等非语言要素的语义一致性。
衍生相关工作
CAMMT直接推动了文化感知多模态翻译的研究浪潮。基于该数据集,后续研究如CVQA(2024)扩展了视觉问答任务的文化维度,而CulturalVQA(2024)则构建了更细粒度的区域视觉理解基准。在方法论层面,Gemini团队(2025)受其启发提出视觉锚定技术,显著提升低资源语言翻译性能。此外,其CSI分类体系被Yao等人(2023)改进为自动化文化术语抽取管道,广泛应用于跨文化对话系统开发。
数据集最近研究
最新研究方向
近年来,CAMMT数据集在跨文化多模态机器翻译领域引起了广泛关注。该数据集通过结合视觉信息与文本内容,为处理文化特定项(CSIs)提供了新的研究视角。研究重点集中在探索视觉语境如何提升翻译质量,特别是在文化敏感性和语义消歧方面的表现。前沿工作表明,多模态模型能更准确地保留文化元素,并在性别标记和区域表达上展现出优势。这一进展对构建具有文化意识的翻译系统具有重要意义,推动了跨语言交流的技术边界。
相关研究论文
  • 1
    CaMMT: Benchmarking Culturally Aware Multimodal Machine TranslationMBZUAI · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作