five

iVISPAR|视觉语言模型数据集|空间推理数据集

收藏
arXiv2025-02-05 更新2025-02-11 收录
视觉语言模型
空间推理
下载链接:
https://ivispar.ai
下载链接
链接失效反馈
资源简介:
iVISPAR是一个互动式的视觉空间推理基准,由奥斯纳布吕克大学认知科学研究所创建,旨在评估视觉语言模型在动态环境中的空间推理能力。该数据集基于滑动拼图游戏,支持2D、3D和基于文本的输入模态,包含了从简单配置到NP完全挑战的不同难度级别的任务。数据集通过调整板块大小、方块数量和解决方案路径等因素来实现任务复杂性的精细调整,为研究提供了评估视觉语言模型空间推理和规划能力的坚实基础。
提供机构:
奥斯纳布吕克大学认知科学研究所
创建时间:
2025-02-05
AI搜集汇总
数据集介绍
main_image_url
构建方式
iVISPAR 数据集构建了一个基于滑动拼图的多模态交互式基准,旨在评估视觉语言模型(VLMs)的空间推理能力。该基准支持视觉2D、3D和文本输入模式,通过调整拼图板的大小、拼图块的数量和解决方案路径,实现了可扩展的任务复杂性。数据集基于滑动几何拼图(SGP),这是一种经典的滑动拼图变体,要求逻辑规划、空间意识和多步骤推理。SGP使用具有颜色和形状属性的不同几何对象代替传统的数字拼图块,增加了视觉空间复杂性,并提高了任务的扩展性。
特点
iVISPAR 数据集的特点在于其多模态性和交互性。它允许 VLMs 通过基于提示的 API 与模拟环境进行交互,并通过迭代的行为-感知循环来解决问题。该基准提供了视觉2D、3D和文本输入模式,使研究人员能够全面评估 VLMs 的规划和推理技能。此外,iVISPAR 还支持可定制的随机拼图生成和基准性能与多个基线模型进行比较。
使用方法
使用 iVISPAR 数据集时,研究人员可以利用其提供的 API 与 VLMs 交互。通过迭代的行为-感知循环,VLMs 可以接收当前和目标状态的观察,并通过自然语言命令来移动拼图块。该基准支持多模态输入,允许研究人员选择视觉2D、3D或文本输入模式。此外,iVISPAR 还提供了多种基准性能指标,包括完成环境的百分比和与最优路径的平均步数偏差,以评估 VLMs 的空间推理能力。
背景与挑战
背景概述
随着视觉语言模型(VLMs)的迅速发展,其在空间推理和视觉对齐方面的局限性日益凸显。为了克服这些限制,研究人员提出了iVISPAR,一个旨在评估VLMs空间推理能力的交互式多模态基准。iVISPAR基于滑动拼图问题的一个变体,要求模型具备逻辑规划、空间意识和多步骤推理能力。该基准支持视觉2D、3D和文本输入模态,能够全面评估VLMs的规划和推理技能。研究人员评估了一系列最先进的开源和闭源VLMs,比较了它们的表现,并提供最优路径解决方案和人类基准,以评估任务的复杂性和可行性。结果表明,虽然一些VLMs在简单的空间任务上表现良好,但在更复杂的配置和问题属性上却遇到了困难。值得注意的是,虽然VLMs在2D视觉方面通常比3D或文本表示表现得更好,但它们始终无法达到人类的表现,这突出了视觉对齐的持续挑战。这突显了当前VLMs能力的关键差距,突出了它们在实现人类水平认知方面的局限性。
当前挑战
iVISPAR数据集的相关挑战包括:1) VLMs在空间推理和视觉对齐方面的挑战;2) 构建过程中遇到的挑战。VLMs在3D视觉方面的空间推理能力较弱,而且在不同模态和任务复杂性之间存在显著的性能差异。此外,VLMs在规划和推理方面仍然存在局限性,需要进一步提高其理解和处理复杂空间关系的能力。为了解决这些问题,未来的研究可以探索更复杂的任务和更大的数据集,并开发新的模型架构和训练方法。
常用场景
经典使用场景
iVISPAR数据集被广泛应用于评估视觉语言模型(VLMs)的空间推理能力。该数据集基于经典的滑动拼图问题,要求模型在逻辑规划、空间意识和多步推理方面具备高度的能力。通过提供视觉2D、3D和文本输入模态,iVISPAR能够全面评估VLMs的规划和推理技能。该数据集支持可扩展的任务复杂性,通过调整棋盘大小、瓷砖数量和解决方案路径等因素,从简单的配置到NP-complete挑战,为VLMs提供了一个全面的评估框架。
解决学术问题
iVISPAR数据集的引入解决了当前VLMs在空间推理和视觉对齐方面的局限性。现有的评估基准往往依赖于静态的文本或图像设置,而这些设置往往简化了空间环境,并忽略了真实世界空间推理的动态性和多步复杂性。iVISPAR通过引入一个交互式和多媒体的拼图模拟器,填补了这一空白,使得VLMs能够在动态环境中进行评估。该数据集的设计使得模型能够通过迭代行动感知循环与模拟环境进行交互,从而更准确地反映真实世界空间推理的复杂性。
衍生相关工作
iVISPAR数据集的引入促进了视觉语言模型研究的发展。例如,基于iVISPAR数据集的研究可以进一步探索VLMs在空间推理和视觉对齐方面的局限性,并提出改进模型性能的方法。此外,iVISPAR数据集还可以用于开发新的评估基准,以更全面地评估VLMs的性能。例如,可以将iVISPAR数据集与其他评估基准相结合,构建一个更全面的评估框架,以更准确地反映VLMs的能力。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。

github 收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录

Cifar-100

Cifar-100数据集包含100个类别的60000张32x32彩色图像,每个类别有600张图像。这些类别被分为20个超类,每个超类包含5个子类。数据集分为50000张训练图像和10000张测试图像。

www.cs.toronto.edu 收录

Breast Ultrasound Images (BUSI)

小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。

github 收录