VisArgs

Name: VisArgs
Creator: 延世大学
Published: 2024-06-27 14:32:56
License: 暂无描述

arXiv2024-06-27 更新2024-06-29 收录

下载链接：

https://github.com/JiwanChung/VisArgs

下载链接

链接失效反馈

官方服务：

资源简介：

VisArgs数据集由延世大学等机构创建，包含1,611张图像，专门用于视觉论证理解。数据集内容包括广告和卡通图像，每张图像配有视觉前提、常识前提和论证树等三种文本注释。创建过程中，首先使用GPT-4-O模型生成初步注释，然后由专业人员进行精细调整。该数据集主要应用于评估机器对视觉论证的理解能力，特别是在视觉前提的定位、识别和结论推断方面。

The VisArgs dataset was developed by institutions including Yonsei University, and consists of 1,611 images dedicated to visual argumentation understanding. The dataset encompasses advertising and cartoon images, with three types of textual annotations for each image: visual premise, common-sense premise, and argument tree. During its creation, preliminary annotations were first generated using the GPT-4-O model, followed by meticulous refinement conducted by professional annotators. This dataset is primarily utilized to assess machines' capability to comprehend visual arguments, particularly in the tasks of visual premise localization, recognition, and conclusion inference.

提供机构：

延世大学

创建时间：

2024-06-27

原始信息汇总

视觉论证理解数据集

数据集概述

该数据集用于视觉论证理解，包含图像、视觉前提、结论、边界框、常识前提和推理步骤。数据集可通过Hugging Face访问。

数据加载

python from datasets import load_dataset

加载主数据

dset = load_dataset("jiwan-chung/visargs", "annotations")

加载预定义的负样本集，用于“前提识别”任务

dset = load_dataset("jiwan-chung/visargs", "negatives")

数据实例

json { url: https://i.pinimg.com/originals/5e/7f/10/5e7f108728fb848eb8e3cccfdd62ef8f.jpg, visual_premises: [ A small plant is growing inside a plastic bag., The bag contains a bit of soil., The bag is tied at the top, enclosing the plant. ], conclusion: The image represents the struggle of nature to survive in a human-made, constraining environment, highlighting the need for environmental awareness and protection., b_box: [ {h: 41, startX: 302, startY: 554, w: 72}, {h: 51, startX: 223, startY: 589, w: 229}, {h: 421, startX: 46, startY: 219, w: 407} ], commonsense_premises: [ Plants require soil, water, light, and air to grow., Plastic bags are not a natural environment for plant growth and can restrict access to necessary resources., The act of enclosing the plant in a bag could symbolize suffocation or limitation of growth. ], reasoning_steps: [ (VP1, VP2, CP1 -> IC1): The small plant is growing, showing its resilience and need for natural resources., "(VP3, CP2, CP3 -> IC2): The plastic bag enclosing the plant symbolizes human-imposed constraints on natures growth and survival.", "(IC1, IC2 -> C): The image represents natures struggle to survive in a constrained environment, emphasizing the importance of environmental protection." ] }

搜集汇总

数据集介绍

构建方式

VisArgs 数据集的构建方式是首先从 Pinterest 和专门的卡通网站上手动收集了约 1,600 张图片和卡通。然后，使用 GPT-4-O 模型生成初步的视觉前提描述，并由经验丰富的人类工作者进行筛选和修改。之后，进一步标注了常识前提、结论和论证树，所有描述均为英文。最后，为每个视觉前提收集了边界框标注，以完成多模态标注。

特点

VisArgs 数据集的特点是包含 1,611 张图片，每张图片都伴有三种类型的文本注释：5,112 个视觉前提（带有区域标注）、5,574 个常识前提和连接它们到更广泛的论证的推理树。此外，数据集涵盖了广泛的视觉对象和论证主题，包括广告和卡通。

使用方法

VisArgs 数据集的使用方法包括三种任务：1）前提定位：将视觉前提的描述与图像中的特定区域相关联；2）前提识别：根据给定的中间结论，检索必要的视觉前提；3）结论推导：根据不同级别的输入生成结论。数据集可用于评估机器在理解视觉论证方面的能力，特别是选择性视觉方面。

背景与挑战

背景概述

VisArgs 数据集由 Yonsei University、Seoul National University、Allen Institute for AI 和 Samaya AI 的研究人员共同创建，旨在探索人工智能在视觉论证理解方面的能力。该数据集于 2024 年发布，包含 1,611 张图像，并伴有三种类型的文本注释：5,112 个视觉前提（带有区域注释）、5,574 个常识前提以及连接它们到更广泛的论证的推理树。VisArgs 的创建填补了视觉论证理解领域的数据集空白，为研究机器学习模型在处理视觉论证时的瓶颈提供了宝贵资源。该数据集的主要研究问题是：当今的 AI 是否能够像人类一样理解视觉论证？VisArgs 的发布对相关领域产生了深远影响，为视觉推理和视觉论证理解的研究提供了新的方向和工具。

当前挑战

VisArgs 数据集的相关挑战包括：1) 机器无法完全识别图像中的相关视觉线索。实验表明，即使是表现最好的模型 GPT-4-O，其准确率也只有 78.5%，而人类的准确率达到了 98.0%。当比较集从图像外的物体更改为图像内的无关物体时，所有模型的性能都下降了，平均准确率下降了 19.5%。2) 这种局限性是影响机器理解视觉论证性能的最大因素。当给定相关视觉前提作为额外输入时，大多数模型在推断视觉论证结论方面的性能提升最大，与其他输入相比。VisArgs 数据集为研究机器学习模型在处理视觉论证时的瓶颈提供了宝贵资源，同时也为未来的研究提供了新的方向和工具。

常用场景

经典使用场景

VisArgs数据集是一个专门为视觉论证理解而设计的基准数据集，它通过图像和文本注释的方式，揭示了视觉论证中的隐含结构。该数据集包括1611张图像，以及三种类型的文本注释：5112个视觉前提（带有区域注释）、5574个常识前提以及连接它们到更广泛论证的推理树。VisArgs数据集被广泛应用于评估和训练视觉论证理解模型，特别是在广告、社会运动和卡通等领域。例如，VisArgs可以用于训练模型识别和定位图像中的关键视觉元素，以及理解这些元素如何与常识前提和结论相关联。

解决学术问题

VisArgs数据集解决了视觉论证理解中的选择性视觉问题。选择性视觉是指人类在理解视觉论证时，能够专注于图像中与论证相关的特定视觉刺激，而不是所有视觉刺激。VisArgs数据集通过提供明确的视觉前提、常识前提和推理树，使得模型能够更好地理解视觉论证中的关键信息。VisArgs数据集的发布为视觉论证理解领域的研究提供了重要的资源和工具，有助于推动该领域的发展。

衍生相关工作

VisArgs数据集的发布催生了一系列相关的研究工作。例如，一些研究利用VisArgs数据集评估了不同视觉论证理解模型的性能，并发现了模型在选择性视觉方面的瓶颈。这些研究结果有助于推动视觉论证理解模型的改进和优化。此外，一些研究还利用VisArgs数据集开发了一些新的视觉论证理解任务，例如视觉前提定位、视觉前提识别和结论推导等，这些任务有助于更好地评估和训练视觉论证理解模型。VisArgs数据集的发布为视觉论证理解领域的研究提供了重要的资源和工具，有助于推动该领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集