VIDA (Visually-Dependent Ambiguity)
收藏arXiv2026-05-04 更新2026-05-09 收录
下载链接:
https://huggingface.co/datasets/p1k0/visually-dependent-ambiguity
下载链接
链接失效反馈官方服务:
资源简介:
VIDA是由汉堡大学与阿里巴巴团队联合构建的多模态机器翻译数据集,专注于视觉依赖性歧义解析。该数据集包含2500条经严格筛选的英中翻译实例,涵盖词级、句级及集体名词三类歧义场景,所有样本均需依赖视觉证据进行消歧。数据通过三阶段半自动化流程构建,包括基于GPT-4o和双LLM共识的歧义筛选、结构化翻译生成及人工验证。其核心价值在于为评估LVLM模型的视觉消歧能力提供标准化测试基准,推动多模态翻译中语义精准度的研究。
VIDA is a multimodal machine translation dataset jointly constructed by the University of Hamburg and the Alibaba team, focusing on visual-dependent ambiguity resolution. This dataset contains 2500 strictly filtered English-Chinese translation instances, covering three types of ambiguity scenarios: word-level, sentence-level, and collective noun, where all samples require visual evidence for disambiguation. The dataset is built through a three-stage semi-automated workflow, including ambiguity screening based on GPT-4o and dual-LLM consensus, structured translation generation, and manual verification. Its core value lies in providing a standardized test benchmark for evaluating the visual disambiguation capability of LVLM models, promoting research on semantic accuracy in multimodal machine translation.
提供机构:
汉堡大学·信息学系; 阿里巴巴集团·淘宝天猫; 阿里巴巴云
创建时间:
2026-05-04
原始信息汇总
根据您提供的数据集详情页面地址和README文件内容,以下是对该数据集的关键信息总结:
数据集概述
- 数据集名称:visually-dependent-ambiguity(视觉依赖歧义数据集)
- 来源地址:https://huggingface.co/datasets/p1k0/visually-dependent-ambiguity
数据集特征
该数据集包含以下字段:
- idx:样本索引(int64类型)
- image:图像数据(image类型)
- en:英文文本(string类型)
- standard_zh:标准中文翻译(string类型)
- standard_resolved_ambiguity:标准歧义消解结果(string类型)
- fine_grained_zh:细粒度中文翻译(string类型)
- fine_grained_resolved_ambiguity:细粒度歧义消解结果(string类型)
- group:分组编号(int64类型)
- sense:语义信息,包含子字段:term(术语)、type(类型)、gold_interpretation(标准解释)
- agree_ambi:歧义一致性信息,包含子字段:type(类型)、explanation(解释)、ambiguous_terms(歧义术语列表)、translations(翻译列表)、possible_chinese_translations(可能的中文翻译列表)
数据集划分与规模
数据集包含四个子集,总数据量约2527个样本,总大小约690 MB:
| 子集名称 | 样本数量 | 数据大小 |
|---|---|---|
| vida_sent | 312 | 353.5 MB |
| vida_colln | 255 | 38.9 MB |
| vida_base_train | 1352 | 211.9 MB |
| vida_base_test | 580 | 85.7 MB |
数据用途
该数据集专门用于研究与视觉依赖歧义相关的任务,重点关注:
- 在不同语言(英文和中文)之间处理需要依赖视觉信息进行歧义消解的语言现象
- 提供了标准级别的细粒度歧义消解标注
- 包含图像数据,支持多模态学习场景
搜集汇总
数据集介绍

构建方式
在机器翻译领域,歧义消解是核心挑战之一,尤其当歧义的解决必须依赖视觉信息时。VIDA数据集基于一种半自动化的三阶段流水线构建。首先,通过GPT-4o进行图像-文本匹配与文本标准化,并采用双模型共识策略(Qwen-Max与DeepSeek-v3)筛选出仅凭文本无法消解的歧义描述,记录歧义短语及其所需的视觉线索。其次,利用GPT-4o结合图像与歧义信息生成消歧后的高质量翻译及消解依据。最后,经过大模型质量评分与两位母语为中文的标注者人工验证,确保翻译的语义保真度与流畅性,对不合格样本进行修正,并由此提炼出集体名词子集。最终数据集包含2,500个实例,覆盖词级与句级歧义。
特点
VIDA数据集的独特之处在于它所聚焦的歧义类型具有严格的视觉依赖性,即每个实例的歧义消解都必须通过图像信息才能实现,由此避免了此前基准数据集中仅靠文本即可消歧的问题。数据集细分为三个子集:VIDA-Base主要覆盖词级歧义,句长平均11词且歧义密度较高;VIDA-Sent专门针对句级语义歧义;VIDA-CollN则聚焦集体名词的具象化翻译,其中抽象实体需要依据图像内容转化为具体的目标表达。这种设计使得数据集能够全面评估模型在不同歧义层次上的泛化能力,为多模态机器翻译中的视觉接地研究提供了更具挑战性的评测基础。
使用方法
VIDA数据集主要用于评估多模态大语言模型在视觉依赖歧义消解任务上的表现。使用时,可将图像与源文本作为输入,模型需生成正确消歧的目标翻译。研究者可采用标准机器翻译指标(如BLEU、COMET)评测整体翻译质量,同时,论文配套提出了以大语言模型为评判器的消歧中心评估指标(Disambi-Term与Disambi-Inst),直接判断翻译输出中标注的歧义短语是否被正确消解。该数据集还可用于监督微调或链式思维微调等训练范式,以探究推理监督对模型视觉接地消歧能力的提升效果,尤其适合在分布外子集上检验模型的泛化性能。
背景与挑战
背景概述
多模态机器翻译(MMT)领域长期面临一个核心悖论:尽管视觉上下文被引入以提升翻译质量,但诸多研究表明,模型在翻译过程中并未真正依赖视觉信息。为探究这一问题,汉堡大学克里斯·比曼教授团队联合阿里巴巴集团,于2026年构建了VIDA(Visually-Dependent Ambiguity)数据集。该数据集由2,500个精心筛选的实例组成,其中每个实例包含一个必须依赖视觉证据才能消歧的源语言歧义片段。VIDA覆盖了词级、句级以及集合名词三类歧义,旨在填补现有基准如3AM和MMA在数据质量、视觉依赖性和翻译场景适配性方面的不足,为评估多模态翻译中的视觉消歧能力提供了更为严谨的测试平台。
当前挑战
VIDA所应对的核心挑战在于:其一,多模态翻译中视觉信息的实际利用程度难以验证——现有模型在替换或扰动图像后翻译质量仅轻微下降,暴露出模型对视觉模态的依赖不足;其二,现有消歧评估方法存在局限,如3AM数据集中许多实例单凭文本即可消歧,而MMA采用VQA格式与翻译场景脱节,且通用翻译指标如BLEU无法直接衡量歧义片段的正确解析。构建过程中,团队面临三重挑战:需确保每个实例的歧义消解严格依赖视觉证据而非文本线索,为此采用双模型共识策略过滤文本可消歧的样本;需要兼顾翻译流畅性与歧义解析正确性,通过LLM评判与人工验证相结合的分级质控流程,最终从26,452个原始样本中筛选出2,500个高质量实例,淘汰率超过90%。
常用场景
经典使用场景
在机器翻译与多模态学习的交叉领域,VIDA数据集的核心应用场景在于评估与提升大语言模型对视觉依赖型歧义的消解能力。研究者通常利用该数据集检验翻译模型是否真正利用图像信息来解析源语言中仅凭文本无法确定含义的模糊片段,涵盖词汇级歧义、句级歧义以及集体名词等特殊情境。通过提供严格依赖视觉证据的2,500条中英翻译实例,VIDA为多模态机器翻译中的视觉接地研究构建了高信效度的评估基准,开创性地将歧义消解从辅助任务提升为核心评测维度。
解决学术问题
现有多模态翻译基准常存在视觉依赖度不足或评测格式与翻译任务不匹配的问题,例如3AM数据集中的歧义实例多可仅凭文本解决,而MMA数据集采用视觉问答格式偏离翻译场景。VIDA的提出精准填补了这一方法论空白:通过构建严格视觉依赖的歧义实例及配套的消解中心化评估指标(Disambi-Term与Disambi-Inst.),首次实现开放翻译生成场景下跨度级歧义消解准确率的直接量化。该数据集揭示了传统翻译指标(如BLEU、COMET)在度量视觉接地效果时的结构性缺陷,推动了评估范式从整体翻译质量向细粒度消解正确性的转变。
衍生相关工作
基于VIDA数据集,研究者已开展多项开创性工作。在方法论层面,论文提出的CoT-SFT(链式思维监督微调)策略通过人工合成的六步推理轨迹,引导模型在翻译前显式地识别歧义片段并依据视觉证据进行消解,相较标准微调在分布外子集上取得超过15个百分点的消解准确率提升。这一工作启发了后续通过强化学习或偏好优化替代手工推理轨迹的研究方向。在评估维度,配套提出的LLM-as-a-Judge分类器范式已被拓展至其他多模态任务,成为衡量模型视觉接地程度的通用工具。此外,该数据集的反事实测试方法(如随机图像替换实验)为诊断多模态模型的视觉注意力机制衰减和幻觉问题提供了新范式。
以上内容由遇见数据集搜集并总结生成



