cammt

Hugging Face2025-06-04 更新2025-06-05 收录

下载链接：

https://huggingface.co/datasets/villacu/cammt

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了多种语言的文本及其翻译，以及相关图片。具体特征包括文本ID、地区、英文文本、保守翻译、替换翻译、类别、首选翻译和图片。数据集分为多个部分，涵盖了不同地区和语言，如墨西哥西班牙语、印度孟加拉语、埃塞俄比亚奥罗莫语等。每个部分包含不同数量的示例，共计约2467.53MB。

创建时间：

2025-05-28

原始信息汇总

CaMMT 数据集概述

数据集基本信息

名称: CaMMT (Culturally Aware Multimodal Machine Translation)
用途: 评估多模态机器翻译系统在文化相关内容上的表现
数据量: 5,817个主条目 + 1,550个CSI翻译条目
语言: 19种语言，覆盖23个地区
许可证: CC BY-NC-SA 4.0

数据集特点

多模态: 包含图像和文本数据
文化相关性: 特别关注文化特定项目(CSIs)
翻译策略: 提供保守翻译和替代翻译
地区多样性: 覆盖23个不同地区

数据结构

特征字段

ID: 唯一标识符
regional: 地区语言文本
English: 英语平行文本
Conserved_translation: 保留CSI的翻译
Substituted_translation: 使用熟悉等效词的翻译
Category: 文化相关性分类
Preferred_translation: 母语者偏好的翻译
image: 图像数据

数据分类

非文化相关句子
非CSI(文化相关但无特定CSI)
CSI-有可译性
CSI-强制翻译

数据分布

地区	样本数	数据大小(bytes)
es_mex	323	158368543.0
bn_india	286	94017886.0
om_eth	214	28490930.0
ur_india	220	102386298.0
ig_nga	200	14372042.0
ur_pak	216	147129846.0
zh_ch	308	91877910.0
es_ecu	362	141969979.0
sw_ken	271	31567516.0
kor_sk	290	143897056.0
ru_rus	200	56598710.0
ta_india	213	142254878.0
amh_eth	234	122937506.0
jp_jap	203	63884062.0
fil_phl	203	42171387.0
ms_mys	315	84408174.0
bg_bg	369	179103702.0
es_chl	234	98202963.0
pt_brz	284	214095076.0
ar_egy	203	106134417.0
ind_ind	202	116476184.0
mr_india	202	145040535.0
es_arg	265	142144959.0

引用信息

bibtex @misc{villacueva2025cammtbenchmarkingculturallyaware, title={CaMMT: Benchmarking Culturally Aware Multimodal Machine Translation}, author={Emilio Villa-Cueva and Sholpan Bolatzhanova and Diana Turmakhan and Kareem Elzeky and Henok Biadglign Ademtew and Alham Fikri Aji and Israel Abebe Azime and Jinheon Baek and Frederico Belcavello and Fermin Cristobal and Jan Christian Blaise Cruz and Mary Dabre and Raj Dabre and Toqeer Ehsan and Naome A Etori and Fauzan Farooqui and Jiahui Geng and Guido Ivetta and Thanmay Jayakumar and Soyeong Jeong and Zheng Wei Lim and Aishik Mandal and Sofia Martinelli and Mihail Minkov Mihaylov and Daniil Orel and Aniket Pramanick and Sukannya Purkayastha and Israfel Salazar and Haiyue Song and Tiago Timponi Torrent and Debela Desalegn Yadeta and Injy Hamed and Atnafu Lambebo Tonja and Thamar Solorio}, year={2025}, eprint={2505.24456}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2505.24456}, }

搜集汇总

数据集介绍

构建方式

在跨文化机器翻译研究领域，CAMMT数据集通过系统化采集和处理多语言平行语料构建而成。该数据集基于CVQA数据集进行深度重构，将原始问答对转化为陈述式图像描述文本，并针对文化特定项目(CSIs)精心设计了保留原文化术语的直译和使用文化等效词的意译两种翻译策略。数据收集过程涉及全球23个地区的母语专家团队，通过严谨的标注流程确保每种语言变体都能准确反映其文化语境。

特点

作为评估多模态机器翻译系统文化适应性的基准，CAMMT数据集最显著的特点是涵盖19种语言和23个地区变体，包含超过5,800组图文三元组。其独特价值在于对文化特定项目的精细标注，包括文化相关性分类、翻译策略选择及母语者偏好标注。数据集特别设计了平行文本结构，每条记录均包含区域语言描述、英语对应文本以及针对CSIs的两种替代翻译方案，为研究视觉语境对文化术语翻译的影响提供了丰富素材。

使用方法

该数据集可通过HuggingFace平台便捷加载，支持整体调用或按地区分片获取。研究人员可利用其结构化字段开展多维度分析，如通过'Category'字段筛选不同文化相关度的文本，对比'Conserved_translation'与'Substituted_translation'的差异，或参考'Preferred_translation'优化翻译模型。图像与文本的对应关系为开发视觉增强的翻译系统提供了实验基础，特别适合用于探究文化背景知识在机器翻译中的融合机制。

背景与挑战

背景概述

CaMMT数据集由MBZUAI及全球合作机构共同构建，旨在解决多模态机器翻译中文化相关内容的处理难题。该数据集创建于2025年，基于CVQA数据集改造而成，涵盖19种语言和23个地区的5800余个图像-文本三元组。其核心研究问题聚焦于视觉语境如何影响文化特定项目（CSIs）的翻译策略，通过提供保留原文化术语的保守翻译和采用熟悉等效词的替代翻译，为评估多模态翻译系统的文化感知能力提供了基准。该数据集通过整合跨文化语言对和视觉信息，显著推动了机器翻译领域对文化因素的系统性研究。

当前挑战

CaMMT数据集面临双重挑战：在领域问题层面，需解决文化特定项目在跨语言翻译中的语义流失问题，包括文化专有名词的等效性判定、视觉语境对歧义消解的贡献度量化等核心难题；在构建过程中，需克服多语言平行语料对齐的复杂性，涉及23个地区方言的母语者协同标注，以及图像-文本对的文化相关性评估标准统一。此外，数据规模受限于文化特定内容的稀缺性，部分语种样本量不足300例，对模型泛化能力提出更高要求。

常用场景

经典使用场景

在跨文化机器翻译研究中，CaMMT数据集为评估视觉语境对文化特定项目翻译的影响提供了标准化测试平台。该数据集通过图像-文本对的形式，系统性地捕捉了23个地区19种语言中的文化特异性表达，研究者可以分析视觉信息如何辅助解决翻译过程中的文化歧义问题。

实际应用

在全球化数字内容本地化场景中，该数据集支持开发能自动识别文化敏感内容的翻译系统。例如国际新闻媒体可借助基于该数据集训练的模型，在保持文化本真性与读者可接受性之间实现动态平衡，显著提升跨国传播的语义保真度。

衍生相关工作

基于CaMMT的基准特性，已衍生出多项跨模态文化适应研究，包括视觉增强的神经机器翻译架构、文化敏感性自动评估指标等。其中最具代表性的是融合视觉注意力机制的双向翻译模型，该工作通过本数据集验证了图像特征可提升23%的文化术语翻译准确率。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集