machine-translation-for-vision

Hugging Face2026-02-12 更新2026-02-13 收录

下载链接：

https://huggingface.co/datasets/cmu-lti/machine-translation-for-vision

下载链接

链接失效反馈

官方服务：

资源简介：

MTV（Machine Translation for Vision）是一个专注于图像跨文化适应的基准数据集，旨在支持视觉内容跨文化适应的研究。该数据集包含696张图像，分为概念（595张）和应用（101张）两个子集，覆盖8个来源国家和18个类别。每张图像都标注了类别、概念、图像路径和来源国家。该数据集适用于图像到文本和文本到图像的任务，特别是图像跨文化适应（image transcreation）任务，即根据目标受众的文化背景调整图像内容，同时保留原始含义。例如，美国的“早餐”图像可能展示煎饼，而在印度则可能展示idli或paratha。该数据集还揭示了当前最先进的生成模型在此任务上的表现，显示某些国家的概念图像成功率低至5%，而某些地区的应用图像则完全失败。数据集采用MIT许可证发布。

创建时间：

2026-02-10

原始信息汇总

数据集概述

基本信息

数据集名称: Machine Translation for Vision (MTV)
主要任务: 图像转创 (Image Transcreation)，即适应图像内容以使其对不同目标受众具有文化相关性。
许可协议: MIT
语言: 英语 (en)
规模类别: n<1K (少于1000个样本)
标签: image-transcreation, cultural-adaptation, vision-language, cross-cultural

数据集构成

总图像数量: 696
数据划分:
- concept (概念): 595 张图像，专注于跨文化一致的单概念，用于评估基本的转创能力。
- application (应用): 101 张图像，源自真实用例（如教育材料、广告），用于评估实际适用性。
来源国家数量: 8
类别数量: 18

数据字段

字段名	类型	描述
`category`	string	类别分类（18个类别）
`concept`	string	图像中描绘的概念
`image_path`	string	图像文件的路径
`source_country`	string	图像的来源国家（8个国家）

任务描述

图像转创任务涉及调整图像，使其在保留原意的前提下，对目标受众具有文化上的适当性。例如：

美国的“早餐”图像可能显示煎饼，但对印度则应显示米糕或印度飞饼。
“婚礼”图像应反映目标国家的文化传统。这与文本转创类似，翻译者需超越字面翻译，使内容与当地受众产生共鸣。

关键发现

在该基准上对先进生成模型的评估表明：

当前的图像编辑模型表现不佳，在某些国家的概念图像上成功率低至5%。
在某些地区的应用图像上完全失败。
结合语言模型和检索系统可以改善结果。

引用信息

如果使用此数据集，请引用： bibtex @inproceedings{khanuja2024image, title = "An Image Speaks a Thousand Words, But Can Everyone Listen? On Image Transcreation for Cultural Relevance", author = "Khanuja, Simran and Ramamoorthy, Sathyanarayanan and Song, Yueqi and Neubig, Graham", booktitle = "Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (ACL)", year = "2024", url = "https://arxiv.org/abs/2404.01247" }

相关链接

论文: https://arxiv.org/abs/2404.01247
代码: https://github.com/simran-khanuja/image-transcreation

搜集汇总

数据集介绍

构建方式

在跨文化视觉内容适配的研究领域，Machine Translation for Vision (MTV) 数据集的构建体现了严谨的学术设计。该数据集共收录696张图像，依据研究目的划分为两个子集：概念子集包含595张图像，聚焦于具有跨文化一致性的单一概念，用于评估基础的文化适配能力；应用子集包含101张图像，源自教育材料、广告等真实场景，旨在检验模型的实践应用性。图像覆盖8个来源国和18个类别，每张图像均标注了类别、核心概念及来源国家，为图像文化转译任务提供了结构化的评估基准。

特点

该数据集的核心特点在于其专注于图像文化转译这一新兴任务，即类比文本的文化适配，要求将图像内容转化为符合目标文化背景的视觉表达。数据集不仅提供了丰富的跨文化概念实例，如不同国家的早餐或婚礼场景，还通过区分概念与应用两种数据形态，兼顾了理论探索与实际验证的双重需求。其规模虽精炼，但覆盖了多元的地理与文化类别，为评估生成模型在跨文化语境下的视觉内容生成与编辑能力，提供了具有挑战性的标准化测试平台。

使用方法

研究人员可通过Hugging Face的`datasets`库便捷地加载此数据集。使用`load_dataset`函数可加载完整数据集或指定子集，例如`concept`或`application`。加载后，数据以字典形式呈现，包含类别、概念、图像路径及来源国等关键字段，便于直接用于模型训练或评估。典型的使用流程包括加载数据、访问样本信息，并基于此开展图像生成或编辑模型的实验，以量化模型在保持原意前提下进行文化适配的性能。

背景与挑战

背景概述

在跨文化传播与人工智能视觉语言交叉领域，图像内容的本地化适配长期面临理论空白与评估标准缺失的困境。2024年，卡内基梅隆大学语言技术研究所的研究团队Simran Khanuja等人构建了Machine Translation for Vision（MTV）数据集，旨在系统化研究图像文化转创这一新兴课题。该数据集通过收集来自八个国家、涵盖十八个语义范畴的696张图像，构建了概念验证与实际应用双维度评估框架，为视觉内容跨文化适应性研究提供了首个可量化的基准平台，推动了生成式模型在文化感知能力方面的探索。

当前挑战

图像文化转创任务面临双重核心挑战：在领域问题层面，模型需同时解构图像中的符号语义、社会习俗与情感隐喻，并实现跨文化语境下的视觉元素重构，其难度远超传统图像描述或风格迁移；在数据集构建过程中，研究者需克服文化表征的系统性标注难题，包括如何界定文化适配的边界、平衡普适概念与地域特异性，以及从真实应用场景中采集具有文化敏感性的图像样本，这些挑战共同凸显了视觉内容本地化所涉及的复杂认知与伦理维度。

常用场景

经典使用场景

在跨文化视觉内容生成领域，Machine Translation for Vision (MTV) 数据集为图像跨文化创译任务提供了基准评估平台。该数据集通过包含来自八个国家的696张图像，覆盖18个类别，将图像与特定文化概念配对，旨在模拟人类翻译中文化适应的过程。经典使用场景聚焦于评估生成模型如何将源文化图像中的概念，如“早餐”或“婚礼”，转化为目标文化中具有等效意义的视觉表现形式，从而检验模型在保留原始语义的同时实现文化适配的能力。

衍生相关工作

围绕MTV数据集，已衍生出一系列探索视觉文化适配的前沿工作。这些研究通常结合大型语言模型的文化知识与图像生成技术，例如通过检索增强方法引入目标文化的视觉参考，或设计多模态评估指标以衡量文化相关性。相关论文发表于ACL等顶级会议，推动了跨文化视觉计算这一新兴子领域的形成，为后续研究如何将文本翻译中的“创译”理念扩展至视觉模态奠定了理论基础与实验框架。

数据集最近研究