e-ViL
收藏arXiv2021-08-19 更新2024-06-21 收录
下载链接:
https://github.com/maximek3/e-ViL
下载链接
链接失效反馈官方服务:
资源简介:
e-ViL是一个大型数据集,由牛津大学计算机科学系创建,旨在为视觉-语言任务提供自然语言解释的基准。该数据集包含超过430,000个实例,每个实例包括图像、自然语言假设、分类标签和解释。数据集的创建过程涉及多个步骤,包括手动重新标记和使用多种过滤方法来提高数据质量。e-ViL数据集主要用于评估和比较不同模型在视觉-语言任务中生成自然语言解释的能力,特别是在需要复杂推理和常识知识的场景中。
e-ViL is a large-scale dataset developed by the Department of Computer Science at the University of Oxford, serving as a benchmark for providing natural language explanations in vision-language tasks. This dataset includes over 430,000 instances, each composed of an image, a natural language hypothesis, a classification label, and an explanation. The dataset construction process involves multiple steps, including manual relabeling and the use of various filtering methods to improve data quality. The e-ViL dataset is mainly utilized to evaluate and compare the ability of different models to generate natural language explanations in vision-language tasks, especially in scenarios requiring complex reasoning and commonsense knowledge.
提供机构:
牛津大学计算机科学系
创建时间:
2021-05-09
搜集汇总
数据集介绍

构建方式
e-ViL数据集的构建立足于视觉-语言任务中自然语言解释(NLE)领域的迫切需求,旨在为现有方法提供一个统一且可复用的评估基准。该基准整合了三个具有人工撰写解释的数据集:e-SNLI-VE、VQA-X与VCR。其中,e-SNLI-VE作为当前规模最大的视觉-语言NLE数据集,通过将e-SNLI中的解释与SNLI-VE中的图像-文本对融合而成。为克服融合过程中引入的标签噪声,研究者设计了多重过滤机制,包括基于关键词的筛选、基于ROUGE-1的句子相似度过滤,以及基于MNLI模型预测不确定性的过滤,并针对验证集与测试集中的中性样本进行了人工重新标注,从而确保了数据质量。
特点
e-ViL的核心特点在于其系统性与多维度的评估框架。它不仅涵盖了多种模型架构与数据集,更首次在统一的评价体系下对现有方法进行了全面比较。该基准特别强调自然语言解释的评估难度,指出传统自动指标(如BLEU、ROUGE)与人类判断之间的弱相关性,因此将人类评估作为黄金标准。在评估中,标注者需先正确回答视觉-语言任务,再对解释进行四档评分(Yes、Weak Yes、Weak No、No),并识别解释的主要缺陷(如缺乏依据、描述失实、语句无意义)。此外,e-ViL还引入了整体得分SO,将任务准确率与解释得分相乘,以避免模型只优化解释生成而忽略任务本身。
使用方法
使用e-ViL基准时,研究者需将其模型适配为包含任务模块MT与解释模块ME的双模块架构。模型在三个数据集上分别进行训练与评估,其中VQA-X与VCR需针对其任务形式(多标签分类与多项选择)进行相应调整。评估时,从每个模型正确回答的样本中随机抽取300个实例,由三位标注者独立评价解释质量,最终得分取均值。为确保公平性与可复用性,标注过程采用匿名化设计,将模型生成解释与真实解释混合呈现,避免锚定效应。研究者还可利用e-ViL提供的自动指标(如BERTScore与METEOR)进行初步调参,但最终性能需通过人类评估验证。
背景与挑战
背景概述
在视觉-语言任务中,尽管深度学习模型在诸多基准上取得了卓越性能,但其黑箱特性阻碍了人们对模型决策过程的理解与信任。为弥合这一鸿沟,自然语言解释(NLE)应运而生,它通过生成可读的句子阐明模型推理依据,相较于传统的显著性图或注意力图,能够传达更复杂、更精细的认知逻辑。然而,该领域长期缺乏统一的评估框架与大规模高质量数据集,导致不同方法之间难以进行客观比较。针对这一困境,牛津大学研究团队于2020年提出了e-ViL基准与e-SNLI-VE数据集。e-ViL首次整合了多种模型与数据集,建立了可复用的标准化评估体系;e-SNLI-VE则以超过43万条实例的规模,成为当时最大的视觉-语言自然语言解释数据集,为可解释人工智能领域提供了关键的研究资源与比较基础。
当前挑战
e-ViL所应对的核心挑战在于视觉-语言自然语言解释领域缺乏统一比较的标准。具体而言,现有数据集规模偏小、质量参差,如VQA-X中的解释往往过于简单,而VQA-E的自动收集方式导致噪声严重。此外,自然语言生成的自动评估指标(如BLEU、ROUGE)在衡量解释质量时与人类判断的相关性较弱,无法捕捉语义多样性,使得模型间的公平对比难以实现。在数据集构建过程中,e-SNLI-VE面临将文本前提替换为图像后产生的标签错误问题,尤其是中性类别的误标率高达38.6%。研究团队通过人工重新标注、关键词过滤、相似性过滤及不确定性过滤等多重手段,才将噪声降至可接受水平,确保数据集既具备大规模优势又维持了较高的解释质量。
常用场景
经典使用场景
在视觉-语言任务的可解释性研究中,e-ViL数据集作为首个统一的基准评测框架,为自然语言解释(NLEs)的生成与评估提供了标准化平台。该数据集整合了e-SNLI-VE、VQA-X和VCR三个子集,覆盖了视觉蕴含、视觉问答和常识推理等多样化场景。研究者利用e-ViL可系统性地比较不同模型在解释生成任务上的表现,通过统一的人类评估协议与自动指标,衡量解释对答案的支撑程度、图像锚定性及语义连贯性。这一经典应用场景填补了此前缺乏可复用评估体系的空白,使跨模型、跨数据集的性能对比成为可能。
实际应用
在实际应用中,e-ViL数据集推动了可解释人工智能在医疗影像诊断、自动驾驶决策、智能客服等高风险领域的落地。例如,在医学视觉问答场景中,模型不仅需给出诊断结论,更需生成如“因为肺部CT显示毛玻璃样阴影”等自然语言解释,以辅助医生验证推理过程。在自动驾驶领域,模型对“为何判断前方障碍物为行人”的合理解释,有助于建立人机信任。此外,该数据集还促进了教育辅助系统的开发,使AI能够通过自然语言与学习者交互,阐明视觉推理的每一步逻辑,从而提升教学透明度和学习效果。
衍生相关工作
e-ViL数据集的提出催生了一系列重要衍生工作。在模型架构方面,研究者基于其评估框架提出了e-UG模型,将UNITER的跨模态联合表示与GPT-2的文本生成能力相结合,在三个子集上均大幅超越此前最优方法。在评估方法上,相关工作深入分析了自动NLG指标(如BERTScore、METEOR)与人类判断的相关性,揭示了现有指标在VCR等复杂语义场景中的局限性,推动了更可靠评估指标的设计。此外,该数据集启发了关于解释作为“学习指令”的研究,证实联合训练解释生成与主任务可提升模型表征能力,为多任务学习与可解释性的融合开辟了新路径。
以上内容由遇见数据集搜集并总结生成



