VASR

github2024-05-03 更新2024-05-31 收录

下载链接：

https://github.com/vasr-dataset/vasr

下载链接

链接失效反馈

官方服务：

资源简介：

我们引入了一项新任务，即视觉情景识别的视觉类比，将经典的词汇类比任务适应到视觉领域。给定一组三个图像，任务是选择一个图像候选B来完成类比（A到A类似于B到什么？）。与之前关注简单图像转换的视觉类比工作不同，我们处理需要理解场景的复杂类比。我们利用情景识别注释和CLIP模型生成大量50万个候选类比。对数据样本的众包注释表明，人类与数据集标签的意见一致率约为80%（机会水平为25%）。此外，我们使用人类注释创建了一个包含3,820个验证类比的黄金标准数据集。我们的实验表明，当干扰项随机选择时，最先进模型的表现良好（约86%），但在精心选择的干扰项面前表现不佳（约53%，而人类准确率为90%）。我们希望我们的数据集能促进新型类比制作模型的发展。

We introduce a novel task: visual analogy for visual scenario recognition, adapting the classic lexical analogy task to the visual domain. Given a set of three images, the task is to select a candidate image B to complete the analogy: "A is to A as B is to what?". Unlike previous visual analogy works that focus on simple image transformations, we handle complex analogies that require understanding of scene contexts. We utilize scenario recognition annotations and the CLIP model to generate 500,000 candidate analogies. Crowdsourced annotations of the dataset samples indicate that human agreement with the dataset labels is approximately 80% (the chance level is 25%). Furthermore, we use human annotations to create a gold-standard dataset containing 3,820 validation analogies. Our experiments show that state-of-the-art models perform well (around 86%) when distractors are randomly selected, but perform poorly when faced with carefully selected distractors (around 53%), while human accuracy is 90%. We hope our dataset will facilitate the development of novel analogy-making models.

创建时间：

2022-02-23

原始信息汇总

VASR: Visual Analogies of Situation Recognition

数据集概述

任务类型: Visual Analogies of Situation Recognition，一种视觉领域的类比任务。
任务描述: 给定一组三张图像，任务是选择一张图像候选B，以完成类比（A到A类似于B到什么？）。
数据集规模: 包含50万候选类比，其中3,820个经过验证。
数据集准确性: 人类对数据集标签的同意度约为80%（随机水平为25%）。
实验结果: 当前最先进模型在随机选择干扰项时表现良好（约86%），但在精心选择的干扰项下表现不佳（约53%，相比人类准确率90%）。

数据集创建

数据生成: 利用情况识别注释和CLIP模型生成大量候选类比。
验证方法: 通过众包注释进行数据样本验证。

搜集汇总

数据集介绍

构建方式

VASR数据集的构建基于对情境识别注释的利用以及CLIP模型的应用，旨在生成大规模的视觉类比候选集。具体而言，研究团队通过情境识别注释和CLIP模型生成了50万条候选类比数据，并通过众包方式对部分数据进行了标注，确保了数据集的多样性和复杂性。此外，为了建立一个高质量的基准数据集，研究团队还通过人工标注创建了3,820条经过验证的类比数据，以确保数据集的准确性和可靠性。

特点

VASR数据集的核心特点在于其专注于复杂的视觉类比任务，不同于以往仅关注简单图像变换的研究，该数据集要求模型理解场景中的关系结构。数据集包含50万条候选类比数据，并通过众包和人工标注确保了数据的准确性。此外，数据集还展示了人类与模型在处理复杂类比任务时的性能差异，为模型性能的提升提供了重要参考。

使用方法

使用VASR数据集时，用户需先进入数据集目录进行数据加载，随后可通过实验目录运行模型实验。数据集的安装和环境配置可通过运行提供的安装脚本完成，确保用户能够顺利进行实验。数据集的Huggingface集成也提供了便捷的数据访问方式，用户可通过Huggingface平台直接加载和使用该数据集，进行视觉类比任务的模型训练与评估。

背景与挑战

背景概述

在认知科学领域，类比映射被视为人类认知的核心过程，即识别不同情境间相似的结构关系。VASR数据集应运而生，旨在将经典的词语类比任务扩展至视觉领域，提出了视觉情境识别的类比任务。该数据集由主要研究人员通过结合情境识别注释和CLIP模型，生成了包含50万候选类比的大规模数据集，并进一步通过众包注释创建了3,820个经过验证的类比。VASR的提出不仅填补了视觉类比研究领域的空白，还为类比生成模型的开发提供了宝贵的资源。

当前挑战

VASR数据集面临的挑战主要集中在两个方面：首先，构建过程中需要处理复杂的情境理解问题，这与以往专注于简单图像变换的视觉类比任务有显著不同。其次，尽管当前最先进的模型在随机选择的干扰项下表现良好（约86%的准确率），但在精心设计的干扰项下，模型的表现显著下降（约53%的准确率），远低于人类的表现（90%）。这些挑战表明，开发能够有效处理复杂情境类比的模型仍需进一步的研究和创新。

常用场景

经典使用场景

VASR数据集的经典使用场景在于其能够支持视觉类比推理任务，即通过给定三张图像，模型需识别出第四张图像以完成类比关系（如A到A'的关系类似于B到B'的关系）。这一任务不仅要求模型具备图像识别能力，还需理解图像间的复杂场景关系，从而推动了视觉类比推理技术的发展。

衍生相关工作

VASR数据集的发布催生了一系列相关研究工作，包括改进的类比推理模型、基于场景理解的深度学习方法以及跨模态类比推理技术。这些工作不仅扩展了VASR的应用范围，还为视觉类比推理领域提供了新的研究方向和方法论，进一步推动了该领域的技术进步。

数据集最近研究