e-ViL

Name: e-ViL
Creator: 牛津大学计算机科学系
Published: 2021-08-19 00:35:03
License: 暂无描述

arXiv2021-08-19 更新2024-06-21 收录

下载链接：

https://github.com/maximek3/e-ViL

下载链接

链接失效反馈

官方服务：

资源简介：

e-ViL是一个大型数据集，由牛津大学计算机科学系创建，旨在为视觉-语言任务提供自然语言解释的基准。该数据集包含超过430,000个实例，每个实例包括图像、自然语言假设、分类标签和解释。数据集的创建过程涉及多个步骤，包括手动重新标记和使用多种过滤方法来提高数据质量。e-ViL数据集主要用于评估和比较不同模型在视觉-语言任务中生成自然语言解释的能力，特别是在需要复杂推理和常识知识的场景中。

e-ViL is a large-scale dataset developed by the Department of Computer Science at the University of Oxford, serving as a benchmark for providing natural language explanations in vision-language tasks. This dataset includes over 430,000 instances, each composed of an image, a natural language hypothesis, a classification label, and an explanation. The dataset construction process involves multiple steps, including manual relabeling and the use of various filtering methods to improve data quality. The e-ViL dataset is mainly utilized to evaluate and compare the ability of different models to generate natural language explanations in vision-language tasks, especially in scenarios requiring complex reasoning and commonsense knowledge.

提供机构：

牛津大学计算机科学系

创建时间：

2021-05-09

搜集汇总

数据集介绍

构建方式

e-ViL数据集的构建立足于视觉-语言任务中自然语言解释（NLE）领域的迫切需求，旨在为现有方法提供一个统一且可复用的评估基准。该基准整合了三个具有人工撰写解释的数据集：e-SNLI-VE、VQA-X与VCR。其中，e-SNLI-VE作为当前规模最大的视觉-语言NLE数据集，通过将e-SNLI中的解释与SNLI-VE中的图像-文本对融合而成。为克服融合过程中引入的标签噪声，研究者设计了多重过滤机制，包括基于关键词的筛选、基于ROUGE-1的句子相似度过滤，以及基于MNLI模型预测不确定性的过滤，并针对验证集与测试集中的中性样本进行了人工重新标注，从而确保了数据质量。

特点

e-ViL的核心特点在于其系统性与多维度的评估框架。它不仅涵盖了多种模型架构与数据集，更首次在统一的评价体系下对现有方法进行了全面比较。该基准特别强调自然语言解释的评估难度，指出传统自动指标（如BLEU、ROUGE）与人类判断之间的弱相关性，因此将人类评估作为黄金标准。在评估中，标注者需先正确回答视觉-语言任务，再对解释进行四档评分（Yes、Weak Yes、Weak No、No），并识别解释的主要缺陷（如缺乏依据、描述失实、语句无意义）。此外，e-ViL还引入了整体得分SO，将任务准确率与解释得分相乘，以避免模型只优化解释生成而忽略任务本身。

使用方法

使用e-ViL基准时，研究者需将其模型适配为包含任务模块MT与解释模块ME的双模块架构。模型在三个数据集上分别进行训练与评估，其中VQA-X与VCR需针对其任务形式（多标签分类与多项选择）进行相应调整。评估时，从每个模型正确回答的样本中随机抽取300个实例，由三位标注者独立评价解释质量，最终得分取均值。为确保公平性与可复用性，标注过程采用匿名化设计，将模型生成解释与真实解释混合呈现，避免锚定效应。研究者还可利用e-ViL提供的自动指标（如BERTScore与METEOR）进行初步调参，但最终性能需通过人类评估验证。

背景与挑战

背景概述

在视觉-语言任务中，尽管深度学习模型在诸多基准上取得了卓越性能，但其黑箱特性阻碍了人们对模型决策过程的理解与信任。为弥合这一鸿沟，自然语言解释（NLE）应运而生，它通过生成可读的句子阐明模型推理依据，相较于传统的显著性图或注意力图，能够传达更复杂、更精细的认知逻辑。然而，该领域长期缺乏统一的评估框架与大规模高质量数据集，导致不同方法之间难以进行客观比较。针对这一困境，牛津大学研究团队于2020年提出了e-ViL基准与e-SNLI-VE数据集。e-ViL首次整合了多种模型与数据集，建立了可复用的标准化评估体系；e-SNLI-VE则以超过43万条实例的规模，成为当时最大的视觉-语言自然语言解释数据集，为可解释人工智能领域提供了关键的研究资源与比较基础。

当前挑战

e-ViL所应对的核心挑战在于视觉-语言自然语言解释领域缺乏统一比较的标准。具体而言，现有数据集规模偏小、质量参差，如VQA-X中的解释往往过于简单，而VQA-E的自动收集方式导致噪声严重。此外，自然语言生成的自动评估指标（如BLEU、ROUGE）在衡量解释质量时与人类判断的相关性较弱，无法捕捉语义多样性，使得模型间的公平对比难以实现。在数据集构建过程中，e-SNLI-VE面临将文本前提替换为图像后产生的标签错误问题，尤其是中性类别的误标率高达38.6%。研究团队通过人工重新标注、关键词过滤、相似性过滤及不确定性过滤等多重手段，才将噪声降至可接受水平，确保数据集既具备大规模优势又维持了较高的解释质量。

常用场景

经典使用场景

在视觉-语言任务的可解释性研究中，e-ViL数据集作为首个统一的基准评测框架，为自然语言解释（NLEs）的生成与评估提供了标准化平台。该数据集整合了e-SNLI-VE、VQA-X和VCR三个子集，覆盖了视觉蕴含、视觉问答和常识推理等多样化场景。研究者利用e-ViL可系统性地比较不同模型在解释生成任务上的表现，通过统一的人类评估协议与自动指标，衡量解释对答案的支撑程度、图像锚定性及语义连贯性。这一经典应用场景填补了此前缺乏可复用评估体系的空白，使跨模型、跨数据集的性能对比成为可能。

实际应用

在实际应用中，e-ViL数据集推动了可解释人工智能在医疗影像诊断、自动驾驶决策、智能客服等高风险领域的落地。例如，在医学视觉问答场景中，模型不仅需给出诊断结论，更需生成如“因为肺部CT显示毛玻璃样阴影”等自然语言解释，以辅助医生验证推理过程。在自动驾驶领域，模型对“为何判断前方障碍物为行人”的合理解释，有助于建立人机信任。此外，该数据集还促进了教育辅助系统的开发，使AI能够通过自然语言与学习者交互，阐明视觉推理的每一步逻辑，从而提升教学透明度和学习效果。

衍生相关工作

e-ViL数据集的提出催生了一系列重要衍生工作。在模型架构方面，研究者基于其评估框架提出了e-UG模型，将UNITER的跨模态联合表示与GPT-2的文本生成能力相结合，在三个子集上均大幅超越此前最优方法。在评估方法上，相关工作深入分析了自动NLG指标（如BERTScore、METEOR）与人类判断的相关性，揭示了现有指标在VCR等复杂语义场景中的局限性，推动了更可靠评估指标的设计。此外，该数据集启发了关于解释作为“学习指令”的研究，证实联合训练解释生成与主任务可提升模型表征能力，为多任务学习与可解释性的融合开辟了新路径。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集