nlphuji/vasr

Name: nlphuji/vasr
Creator: nlphuji
Published: 2022-12-30 19:39:46
License: 暂无描述

Hugging Face2022-12-30 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/nlphuji/vasr

下载链接

链接失效反馈

官方服务：

资源简介：

--- annotations_creators: - crowdsourced language: - en language_creators: - found license: - cc-by-4.0 multilinguality: - monolingual paperswithcode_id: vasr pretty_name: VASR size_categories: - 1K<n<10K source_datasets: - original tags: - commonsense-reasoning - visual-reasoning task_ids: [] extra_gated_prompt: "By clicking on “Access repository” below, you also agree that you are using it solely for research purposes. The full license agreement is available in the dataset files." --- # Dataset Card for VASR - [Dataset Description](#dataset-description) - [Supported Tasks and Leaderboards](#supported-tasks-and-leaderboards) - [How to Submit Predictions?](#how-to-submit-predictions?) - [Colab notebook code for VASR evaluation with ViT](#colab-notebook-code-for-vasr-evaluation-with-clip) - [Languages](#languages) - [Dataset Structure](#dataset-structure) - [Data Fields](#data-fields) - [Data Splits](#data-splits) - [Dataset Creation](#dataset-creation) - [Considerations for Using the Data](#considerations-for-using-the-data) - [Licensing Information](#licensing-information) - [Citation Information](#citation-information) ## Dataset Description VASR is a challenging dataset for evaluating computer vision commonsense reasoning abilities. Given a triplet of images, the task is to select an image candidate B' that completes the analogy (A to A' is like B to what?). Unlike previous work on visual analogy that focused on simple image transformations, we tackle complex analogies requiring understanding of scenes. Our experiments demonstrate that state-of-the-art models struggle with carefully chosen distractors (±53%, compared to 90% human accuracy). - **Homepage:** https://vasr-dataset.github.io/ - **Colab** https://colab.research.google.com/drive/1HUg0aHonFDK3hVFrIRYdSEfpUJeY-4dI - **Repository:** https://github.com/vasr-dataset/vasr/tree/main/experiments - **Paper:** https://arxiv.org/abs/2212.04542 - **Leaderboard:** https://vasr-dataset.github.io/ - **Point of Contact:** yonatan.bitton@mail.huji.ac.il ## Supported Tasks and Leaderboards https://vasr.github.io/leaderboard. https://paperswithcode.com/dataset/vasr. ## How to Submit Predictions? To submit predictions, please send a prediction CSV file to vasr.benchmark@gmail.com / yonatan.bitton@mail.huji.ac.il. The prediction file should include a "B'" column with the predicted candidate name that best solves the analogy, and an index from 1 to 4 indicating the location of the predicted candidate in the given candidate list. An example prediction file is available [HERE](https://drive.google.com/file/d/1NvBNdvlWmEOYjIVi2xdmQ_tUm-TXo42u/view?usp=share_link). A submission is allowed once a week, and you will receive a response within a week. ## Colab notebook code for VASR evaluation with ViT https://colab.research.google.com/drive/1HUg0aHonFDK3hVFrIRYdSEfpUJeY-4dI ### Languages English. ## Dataset Structure ### Data Fields A: datasets.Image() - the first input image, **A**:A'. A': datasets.Image() - the second input image, different from A in a single key, A:**A'**. B: datasets.Image() - the third input image, has the same different item as A, **B**:B'. B': datasets.Image() - the forth image, which is the analogy solution. Different from B in a single key (the same different one as in A:A'), B:**B'**. Hidden in the test set. candidates_images: [datasets.Image()] - a list of candidate images solutions to the analogy. label: datasets.Value("int64") - the index of the ground-truth solution. Hidden in the test set. candidates: [datasets.Value("string")] - a list of candidate string solutions to the analogy. ### Data Splits There are three splits, TRAIN, VALIDATION, and TEST. Since there are four candidates and one solution, random chance is 25%. ## Dataset Creation We leverage situation recognition annotations and the CLIP model to generate a large set of 500k candidate analogies. There are two types of labels: - Silver labels, obtained from the automatic generation. - Gold labels, obtained from human annotations over the silver annotations. In the huggingface version we provide only the gold labeled dataset. Please refer to the project website download page if you want to download the silver labels version. ### Annotations #### Annotation process We paid Amazon Mechanical Turk Workers to solve analogies, five annotators for each analogy. Workers were asked to select the image that best solves the analogy. The resulting dataset is composed of the 3,820 instances agreed upon with a majority vote of at least 3 annotators, which was obtained in 93% of the cases. ## Considerations for Using the Data All associations were obtained with human annotators. All used images are from the imSitu dataset (http://imsitu.org/) Using this data is allowed for academic research alone. ### Licensing Information CC-By 4.0 ### Citation Information NA

annotations_creators: - 众包（crowdsourced） language: - 英语（en） language_creators: - 现有采集（found） license: - 知识共享署名4.0国际许可协议（cc-by-4.0） multilinguality: - 单语言（monolingual） paperswithcode_id: vasr pretty_name: VASR size_categories: - 1K<n<10K source_datasets: - 原始数据集（original） tags: - 常识推理（commonsense-reasoning） - 视觉推理（visual-reasoning） task_ids: [] extra_gated_prompt: "点击下方“访问仓库”即表示您同意仅将其用于研究目的。完整许可协议可在数据集文件中查看。" --- # VASR 数据集卡片 - [数据集描述](#dataset-description) - [支持任务与排行榜](#supported-tasks-and-leaderboards) - [如何提交预测结果？](#how-to-submit-predictions?) - [基于视觉Transformer（ViT）的VASR评估Colab笔记本代码](#colab-notebook-code-for-vasr-evaluation-with-vit) - [语言](#languages) - [数据集结构](#dataset-structure) - [数据字段](#data-fields) - [数据划分](#data-splits) - [数据集构建](#dataset-creation) - [数据集使用注意事项](#considerations-for-using-the-data) - [许可信息](#licensing-information) - [引用信息](#citation-information) ## 数据集描述 VASR 是一款用于评估计算机视觉常识推理能力的挑战性数据集。给定一组三张图像的三元组，任务需选出能够完成类比关系的候选图像B'，即类比关系为“A对应A'，如同B对应何者？”。与此前聚焦于简单图像变换的视觉类比研究不同，本数据集针对需要理解场景的复杂类比任务。实验结果表明，当前最先进的模型在精心设计的干扰项面前表现欠佳，准确率仅约53%，而人类准确率可达90%。 - **主页（Homepage）:** https://vasr-dataset.github.io/ - **Colab 笔记本** https://colab.research.google.com/drive/1HUg0aHonFDK3hVFrIRYdSEfpUJeY-4dI - **代码仓库（Repository）:** https://github.com/vasr-dataset/vasr/tree/main/experiments - **论文（Paper）:** https://arxiv.org/abs/2212.04542 - **排行榜（Leaderboard）:** https://vasr-dataset.github.io/ - **联系方式（Point of Contact）:** yonatan.bitton@mail.huji.ac.il ## 支持任务与排行榜 https://vasr.github.io/leaderboard. https://paperswithcode.com/dataset/vasr. ## 如何提交预测结果？若需提交预测结果，请将预测CSV文件发送至vasr.benchmark@gmail.com 或 yonatan.bitton@mail.huji.ac.il。预测文件需包含名为“B'”的列，填入可最佳解决该类比任务的候选图像名称，以及一个1至4的索引，用于标注该预测候选在给定候选列表中的位置。示例预测文件可通过[此处](https://drive.google.com/file/d/1NvBNdvlWmEOYjIVi2xdmQ_tUm-TXo42u/view?usp=share_link)获取。提交请求每周仅可发起一次，您将在一周内收到回复。 ## 基于视觉Transformer（ViT）的VASR评估Colab笔记本代码 https://colab.research.google.com/drive/1HUg0aHonFDK3hVFrIRYdSEfpUJeY-4dI ### 语言英语。 ## 数据集结构 ### 数据字段 - **A**: datasets.Image() — 第一张输入图像，对应类比关系 **A**:A'。 - **A'**: datasets.Image() — 第二张输入图像，仅在单个特征维度上与A存在差异，对应类比关系 A:**A'**。 - **B**: datasets.Image() — 第三张输入图像，与A共享相同的差异项，对应类比关系 **B**:B'。 - **B'**: datasets.Image() — 第四张图像，为该类比任务的解。仅在单个特征维度上与B存在差异（与A:A'中的差异项一致），对应类比关系 B:**B'**。该字段在测试集内被隐藏。 - **candidates_images**: [datasets.Image()] — 该类比任务的候选解图像列表。 - **label**: datasets.Value("int64") — 真实解的索引。该字段在测试集内被隐藏。 - **candidates**: [datasets.Value("string")] — 该类比任务的候选解字符串列表。 ### 数据划分数据集包含训练（TRAIN）、验证（VALIDATION）与测试（TEST）三个划分。由于每个样本对应4个候选与1个正确解，随机猜测的准确率为25%。 ## 数据集构建我们借助场景识别标注与CLIP（CLIP）模型生成了总计50万组候选类比样本。该数据集包含两类标签： - **银标（Silver labels）**：通过自动生成流程获得的标签。 - **金标（Gold labels）**：基于银标样本经人工标注得到的标签。在Hugging Face版本的数据集仅提供金标样本。若需下载银标版本，请前往项目官网的下载页面获取。 ### 标注流程我们聘请亚马逊机械 Turk（Amazon Mechanical Turk）标注人员完成类比任务求解，每个类比样本由5名标注人员共同完成。标注人员需选出可最佳解决该类比任务的图像。最终数据集共包含3820个样本，所有样本均通过至少3名标注人员的多数投票达成一致，该筛选规则覆盖了93%的原始生成样本。 ## 数据集使用注意事项所有关联关系均由人工标注人员获取。所有使用的图像均来自imSitu数据集（http://imsitu.org/）。本数据集仅可用于学术研究用途。 ### 许可信息知识共享署名4.0国际许可协议（cc-by-4.0） ### 引用信息无（NA）

提供机构：

nlphuji

原始信息汇总

数据集概述

基本信息

名称: VASR
语言: 英语
许可证: CC-BY-4.0
多语言性: 单语种
规模: 1K<n<10K
来源: 原始数据
标签: 常识推理, 视觉推理

数据集描述

任务: 给定一组三张图片，任务是选择一张图片候选B，完成类比推理（A到A类似于B到什么？）。
特点: 与以往关注简单图像变换的视觉类比不同，VASR处理复杂的类比，需要理解场景。
性能: 当前最先进模型在精心选择的干扰项上表现不佳（±53%，相比人类准确率90%）。

数据集结构

数据字段:
- A, A: 输入图像，表示初始状态和变化后的状态。
- B, B: 输入图像，B为类比解决方案，测试集中隐藏。
- candidates_images: 候选图像列表。
- label: 真实解决方案的索引，测试集中隐藏。
- candidates: 候选字符串列表。
数据分割: TRAIN, VALIDATION, TEST三个分割。

数据集创建

注释过程: 通过Amazon Mechanical Turk Workers进行，每个类比由五名注释者完成，采用多数投票机制。
标签类型: 银标（自动生成）和金标（人工注释）。

使用考虑

使用限制: 仅允许用于学术研究。
图像来源: imSitu数据集。

许可证信息

许可证: CC-BY-4.0

引用信息

引用信息: 未提供。

搜集汇总

数据集介绍

构建方式

在视觉推理领域，VASR数据集的构建融合了自动化生成与人工标注的双重策略。研究者首先利用情境识别标注与CLIP模型，自动生成了约50万条候选类比，形成初步的银标签数据。随后，通过亚马逊众包平台，邀请标注者对银标签数据进行人工筛选，每条类比由五名标注者独立判断，最终以至少三人达成共识为标准，精选出3820条高质量样本，构成金标签数据集。这一流程确保了数据在规模与质量间的平衡，为复杂的视觉常识推理任务提供了可靠基础。

特点

VASR数据集的核心特点在于其专注于复杂场景下的视觉类比推理，超越了传统图像转换的简单范畴。该数据集以三元组图像形式呈现，要求模型在理解场景语义的基础上，完成类比关系（A到A'类似于B到什么？）的推断。其精心设计的干扰项使得当前先进模型的准确率仅为约53%，远低于人类90%的表现，凸显了任务的挑战性。数据以英语呈现，规模在1千至1万样本之间，适用于单语环境下的深度评估。

使用方法

使用VASR数据集时，研究者可通过HuggingFace平台直接加载金标签版本，数据分为训练、验证与测试三个标准划分。评估任务要求模型从候选图像列表中选出最佳类比完成项B'，并以CSV格式提交预测结果至指定邮箱，每周限提交一次。官方提供了基于ViT的评估代码示例，便于复现实验。需要注意的是，该数据集仅限学术研究使用，遵循CC-BY-4.0许可协议，确保了应用的规范性与合法性。

背景与挑战

背景概述

视觉类比场景推理（VASR）数据集于2022年由耶路撒冷希伯来大学的研究团队创建，旨在推动计算机视觉领域的常识推理能力评估。该数据集的核心研究问题聚焦于复杂视觉类比的理解，即给定图像三元组（A, A', B），模型需推断出与B构成类比关系的图像B'，从而完成“A到A'类似于B到何物？”的推理任务。相较于以往侧重于简单图像变换的视觉类比研究，VASR引入了对场景深层语义关系的考察，其构建基于imSitu数据集的图像资源，并通过众包标注确保了数据质量。该数据集的发布为多模态推理模型提供了严谨的基准测试平台，显著提升了视觉常识推理研究的可衡量性与挑战性。

当前挑战

VASR数据集所解决的领域问题在于视觉类比推理，其核心挑战在于模型需超越表层特征匹配，深入理解图像间的隐含语义关系，例如场景中物体功能、事件因果或社会常识的类比映射。现有先进模型在此任务上的表现与人类准确率存在显著差距（约53%对比90%），突显了复杂多模态推理的难度。在构建过程中，研究团队面临两大挑战：一是自动化生成海量候选类比时，需借助CLIP模型与情境识别标注进行初步筛选，确保类比关系的多样性与合理性；二是众包标注环节需设计严谨的评估流程，通过多数投票机制从大量银标数据中提炼高一致性的金标数据，以平衡数据规模与标注可靠性。

常用场景

经典使用场景

在视觉推理与常识理解领域，VASR数据集以其独特的图像类比任务设计，为评估模型在复杂场景中的类比推理能力提供了经典基准。该数据集通过呈现图像三元组（A、A'、B），要求模型从候选图像中选出B'，以完成类比关系（A到A'类似于B到什么？）。这种设置超越了简单的图像变换，强调对场景语义和常识关系的深层理解，广泛应用于测试视觉语言模型如CLIP或ViT在跨模态推理任务中的表现，成为衡量模型是否具备人类级别视觉常识的重要工具。

实际应用

在实际应用中，VASR数据集的能力评估可延伸至多个现实场景。例如，在自动驾驶系统中，车辆需理解交通场景的类比关系以预测行人行为；在医疗影像分析中，医生可能依赖类似推理比较病变前后的图像变化。此外，教育技术领域可利用此类任务开发智能辅导工具，帮助学生通过视觉类比学习抽象概念。这些应用不仅提升了AI系统的实用性和安全性，也为跨领域协作提供了验证平台，促进技术从实验室向产业界的转化。

衍生相关工作

围绕VASR数据集，已衍生出一系列经典研究工作。例如，基于CLIP和ViT的模型评估框架被广泛采用，以探索多模态表示在类比任务中的有效性；后续研究进一步扩展了数据集的规模或引入了新的干扰机制，以增强挑战性。同时，该数据集激发了视觉推理与自然语言处理交叉领域的新方法，如结合图神经网络或注意力机制来建模场景关系。这些工作不仅深化了对视觉常识的理解，也为构建更通用的AI推理系统奠定了理论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集