VALSE

Name: VALSE
Creator: 海德堡大学计算语言学系
Published: 2022-03-14 23:08:08
License: 暂无描述

arXiv2022-03-14 更新2024-06-21 收录

下载链接：

https://github.com/Heidelberg-NLP/VALSE

下载链接

链接失效反馈

官方服务：

资源简介：

VALSE是由海德堡大学计算语言学系创建的一个新型基准数据集，旨在测试预训练的视觉和语言（V&L）模型对特定语言现象的视觉语言基础能力。VALSE包含六个测试，覆盖了各种语言结构，要求模型在视觉模态中定位语言现象，实现比以往更细致的评估。数据集构建过程中采用了支持有效干扰项构建的方法，并报告了对五种广泛使用的V&L模型进行评估的结果。VALSE数据集利用现有的高质量图像描述和视觉问答数据，设计用于利用预训练（或微调）V&L模型中的现有预测头，因此不包括任何重新训练，可视为零样本评估。数据集的应用领域是测量预训练V&L模型在语言视角下的未来进展，补充了以任务为中心的V&L评估。

VALSE is a novel benchmark dataset created by the Department of Computational Linguistics, Heidelberg University, which aims to test the visual-language grounding ability of pre-trained vision-and-language (V&L) models on specific linguistic phenomena. VALSE consists of six tests covering a wide range of linguistic structures, requiring models to locate linguistic phenomena in the visual modality and enabling more fine-grained evaluations than prior benchmarks. A method supporting the construction of effective distractors was adopted during the dataset construction, and evaluation results of five widely used V&L models are reported. The VALSE dataset leverages existing high-quality image captioning and visual question answering (VQA) data, and is designed to utilize the existing prediction heads in pre-trained (or fine-tuned) V&L models, thus eliminating any need for retraining and can be regarded as a zero-shot evaluation. The dataset is intended to measure future progress of pre-trained V&L models from a linguistic perspective, complementing task-centric V&L evaluations.

提供机构：

海德堡大学计算语言学系

创建时间：

2021-12-15

搜集汇总

数据集介绍

构建方式

VALSE基准数据集旨在评估视觉与语言模型对特定语言现象的视觉接地能力。其构建过程严谨，从现有高质量数据集（如MSCOCO、Visual7W、SWiG和VisDial）中提取图像与文本对，针对六种语言现象（存在、复数、计数、空间关系、动作和共指）设计相应的干扰项生成函数。通过自动替换、语言模型预测、角色交换等手段构造干扰项，并借助自然语言推理模型和语法评分工具进行过滤，最终经由人工标注验证，确保干扰项在语法正确的前提下与图像内容矛盾，且与正确描述在词频分布上保持平衡，从而有效规避数据偏差。

使用方法

使用VALSE基准评估模型时，需采用零样本设置。模型需具备二分类头以判断图像-文本对是否被干扰，或通过计算图像-文本匹配分数对正确描述与干扰项进行排序。评估指标包括整体准确率、正确项与干扰项的精确率、配对排序准确率以及ROC曲线下面积。研究者需报告模型在测试前使用的所有训练数据，以确保结果的可比性。该基准旨在衡量预训练模型在特定语言现象上的视觉接地能力，其结果可作为模型在多模态任务中语言理解深度的间接评估。

背景与挑战

背景概述

在视觉与语言（V&L）领域，预训练模型在众多任务上展现了卓越性能，然而学界对其内在的语言理解与视觉锚定能力仍知之甚少。为填补这一空白，海德堡大学、马耳他大学、纽约大学及乌得勒支大学的研究团队于2022年联合提出了VALSE（Vision And Language Structured Evaluation）基准。该基准的核心研究问题在于：预训练V&L模型能否准确地将特定的语言现象（如存在性、复数、计数、空间关系、动作及指代）锚定于视觉模态之中。VALSE通过构建六项系统性测试，以零样本方式评估模型的细粒度语言视觉基础能力，其影响力体现在揭示了现有模型在多数语言现象上的显著不足，为后续研究提供了关键的诊断工具。

当前挑战

VALSE基准所应对的核心挑战在于，当前V&L模型虽能识别图像中的命名物体，却难以理解语言现象所蕴含的复杂关系。具体而言，模型在区分单复数与精确计数（如“一些花”与“恰好一朵花”）、识别空间关系（如“在……上面”与“在……下面”）、以及解析动作参与者与指代消解（如“他”所指代的对象）等方面表现薄弱。此外，数据构建过程本身亦面临严峻挑战：生成的反事实描述（foils）需在语法正确的同时与原图矛盾，并需规避分布性偏差（如词频不平衡）和合理性偏差（如foil过于不自然），以防模型仅依赖语言线索而非视觉信息做出判断。为此，VALSE采用了掩码语言模型、自然语言推理过滤及人工验证等多重策略，以确保数据集的可靠性与挑战性。

常用场景

经典使用场景

在视觉与语言（V&L）研究领域，VALSE基准测试被广泛用于评估预训练模型对特定语言现象的视觉-语言对齐能力。它通过六个精心设计的子任务，分别检验模型在存在性、复数、计数、空间关系、动作以及共指消解等语言构造上的表现。研究者通常利用该数据集进行零样本评估，以测试模型是否真正理解语言与视觉之间的语义关联，而非仅依赖统计偏差或表面线索。这一基准的经典应用场景在于，它提供了一种任务无关的评估框架，使得不同架构的V&L模型能够在统一的语言现象维度下进行公平比较。

解决学术问题

VALSE解决了当前V&L模型评估中缺乏细粒度语言理解能力度量的核心问题。传统基准多聚焦于任务性能，而忽略了模型是否真正掌握了如名词复数、空间介词或动词论元结构等基础语言现象。通过引入对抗性样本和人工校验的干扰项，VALSE揭示了现有模型在识别动作参与者、区分单复数实体以及解析共指关系等方面的显著不足。这一发现促使学术界重新审视预训练策略的有效性，并推动了从任务导向向语言现象导向的评估范式转变，对理解模型的内在表征能力具有深远意义。

实际应用

在实际应用中，VALSE可用于诊断和改进多模态系统在复杂场景下的理解能力。例如，在智能问答、图像描述生成以及人机交互系统中，模型需要准确理解诸如“有几个物体”或“谁在做什么”这类涉及数理关系和动作角色的语言表达。通过VALSE的测试，开发者能够识别模型在空间推理、数量感知和动作识别上的薄弱环节，进而针对性地调整训练数据或优化模型结构。此外，该基准还可作为评估数据集质量的重要工具，通过对比模型在训练前后在VALSE上的表现变化，间接衡量数据增强或微调策略的实际效果。

数据集最近研究