five

machine-translation-for-vision

收藏
Hugging Face2026-02-12 更新2026-02-13 收录
下载链接:
https://huggingface.co/datasets/cmu-lti/machine-translation-for-vision
下载链接
链接失效反馈
官方服务:
资源简介:
MTV(Machine Translation for Vision)是一个专注于图像跨文化适应的基准数据集,旨在支持视觉内容跨文化适应的研究。该数据集包含696张图像,分为概念(595张)和应用(101张)两个子集,覆盖8个来源国家和18个类别。每张图像都标注了类别、概念、图像路径和来源国家。该数据集适用于图像到文本和文本到图像的任务,特别是图像跨文化适应(image transcreation)任务,即根据目标受众的文化背景调整图像内容,同时保留原始含义。例如,美国的“早餐”图像可能展示煎饼,而在印度则可能展示idli或paratha。该数据集还揭示了当前最先进的生成模型在此任务上的表现,显示某些国家的概念图像成功率低至5%,而某些地区的应用图像则完全失败。数据集采用MIT许可证发布。
创建时间:
2026-02-10
原始信息汇总

数据集概述

基本信息

  • 数据集名称: Machine Translation for Vision (MTV)
  • 主要任务: 图像转创 (Image Transcreation),即适应图像内容以使其对不同目标受众具有文化相关性。
  • 许可协议: MIT
  • 语言: 英语 (en)
  • 规模类别: n<1K (少于1000个样本)
  • 标签: image-transcreation, cultural-adaptation, vision-language, cross-cultural

数据集构成

  • 总图像数量: 696
  • 数据划分:
    • concept (概念): 595 张图像,专注于跨文化一致的单概念,用于评估基本的转创能力。
    • application (应用): 101 张图像,源自真实用例(如教育材料、广告),用于评估实际适用性。
  • 来源国家数量: 8
  • 类别数量: 18

数据字段

字段名 类型 描述
category string 类别分类(18个类别)
concept string 图像中描绘的概念
image_path string 图像文件的路径
source_country string 图像的来源国家(8个国家)

任务描述

图像转创任务涉及调整图像,使其在保留原意的前提下,对目标受众具有文化上的适当性。例如:

  • 美国的“早餐”图像可能显示煎饼,但对印度则应显示米糕或印度飞饼。
  • “婚礼”图像应反映目标国家的文化传统。 这与文本转创类似,翻译者需超越字面翻译,使内容与当地受众产生共鸣。

关键发现

在该基准上对先进生成模型的评估表明:

  • 当前的图像编辑模型表现不佳,在某些国家的概念图像上成功率低至5%。
  • 在某些地区的应用图像上完全失败。
  • 结合语言模型和检索系统可以改善结果。

引用信息

如果使用此数据集,请引用: bibtex @inproceedings{khanuja2024image, title = "An Image Speaks a Thousand Words, But Can Everyone Listen? On Image Transcreation for Cultural Relevance", author = "Khanuja, Simran and Ramamoorthy, Sathyanarayanan and Song, Yueqi and Neubig, Graham", booktitle = "Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (ACL)", year = "2024", url = "https://arxiv.org/abs/2404.01247" }

相关链接

  • 论文: https://arxiv.org/abs/2404.01247
  • 代码: https://github.com/simran-khanuja/image-transcreation
搜集汇总
数据集介绍
main_image_url
构建方式
在跨文化视觉内容适配的研究领域,Machine Translation for Vision (MTV) 数据集的构建体现了严谨的学术设计。该数据集共收录696张图像,依据研究目的划分为两个子集:概念子集包含595张图像,聚焦于具有跨文化一致性的单一概念,用于评估基础的文化适配能力;应用子集包含101张图像,源自教育材料、广告等真实场景,旨在检验模型的实践应用性。图像覆盖8个来源国和18个类别,每张图像均标注了类别、核心概念及来源国家,为图像文化转译任务提供了结构化的评估基准。
特点
该数据集的核心特点在于其专注于图像文化转译这一新兴任务,即类比文本的文化适配,要求将图像内容转化为符合目标文化背景的视觉表达。数据集不仅提供了丰富的跨文化概念实例,如不同国家的早餐或婚礼场景,还通过区分概念与应用两种数据形态,兼顾了理论探索与实际验证的双重需求。其规模虽精炼,但覆盖了多元的地理与文化类别,为评估生成模型在跨文化语境下的视觉内容生成与编辑能力,提供了具有挑战性的标准化测试平台。
使用方法
研究人员可通过Hugging Face的`datasets`库便捷地加载此数据集。使用`load_dataset`函数可加载完整数据集或指定子集,例如`concept`或`application`。加载后,数据以字典形式呈现,包含类别、概念、图像路径及来源国等关键字段,便于直接用于模型训练或评估。典型的使用流程包括加载数据、访问样本信息,并基于此开展图像生成或编辑模型的实验,以量化模型在保持原意前提下进行文化适配的性能。
背景与挑战
背景概述
在跨文化传播与人工智能视觉语言交叉领域,图像内容的本地化适配长期面临理论空白与评估标准缺失的困境。2024年,卡内基梅隆大学语言技术研究所的研究团队Simran Khanuja等人构建了Machine Translation for Vision(MTV)数据集,旨在系统化研究图像文化转创这一新兴课题。该数据集通过收集来自八个国家、涵盖十八个语义范畴的696张图像,构建了概念验证与实际应用双维度评估框架,为视觉内容跨文化适应性研究提供了首个可量化的基准平台,推动了生成式模型在文化感知能力方面的探索。
当前挑战
图像文化转创任务面临双重核心挑战:在领域问题层面,模型需同时解构图像中的符号语义、社会习俗与情感隐喻,并实现跨文化语境下的视觉元素重构,其难度远超传统图像描述或风格迁移;在数据集构建过程中,研究者需克服文化表征的系统性标注难题,包括如何界定文化适配的边界、平衡普适概念与地域特异性,以及从真实应用场景中采集具有文化敏感性的图像样本,这些挑战共同凸显了视觉内容本地化所涉及的复杂认知与伦理维度。
常用场景
经典使用场景
在跨文化视觉内容生成领域,Machine Translation for Vision (MTV) 数据集为图像跨文化创译任务提供了基准评估平台。该数据集通过包含来自八个国家的696张图像,覆盖18个类别,将图像与特定文化概念配对,旨在模拟人类翻译中文化适应的过程。经典使用场景聚焦于评估生成模型如何将源文化图像中的概念,如“早餐”或“婚礼”,转化为目标文化中具有等效意义的视觉表现形式,从而检验模型在保留原始语义的同时实现文化适配的能力。
衍生相关工作
围绕MTV数据集,已衍生出一系列探索视觉文化适配的前沿工作。这些研究通常结合大型语言模型的文化知识与图像生成技术,例如通过检索增强方法引入目标文化的视觉参考,或设计多模态评估指标以衡量文化相关性。相关论文发表于ACL等顶级会议,推动了跨文化视觉计算这一新兴子领域的形成,为后续研究如何将文本翻译中的“创译”理念扩展至视觉模态奠定了理论基础与实验框架。
数据集最近研究
最新研究方向
在跨文化视觉内容生成领域,图像转创作为新兴研究方向,旨在解决视觉信息在不同文化背景下的适应性挑战。该数据集聚焦于图像转创任务,通过评估生成模型在文化适配方面的表现,揭示了现有技术在处理复杂文化概念时的局限性。前沿研究探索结合语言模型与检索系统的方法,以提升图像内容的文化相关性,这一方向正推动多模态人工智能向更具包容性和实用性的方向发展,对全球化数字内容创作具有深远影响。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作