SpatialSense
收藏arXiv2019-08-30 更新2024-06-21 收录
下载链接:
https://github.com/princeton-vl/SpatialSense
下载链接
链接失效反馈官方服务:
资源简介:
SpatialSense是一个专注于空间关系识别的数据集,由普林斯顿大学创建。该数据集包含17,498个空间关系,分布在11,569张图像上,旨在为计算机视觉技术提供一个全面的测试平台。数据集通过对抗性众包方式构建,这种方法显著减少了数据集的偏差,并能从长尾中采样更多有趣的关系。SpatialSense的应用领域主要集中在提升计算机视觉系统的空间推理能力,解决复杂的空间关系识别问题。
SpatialSense is a dataset dedicated to spatial relation recognition, developed by Princeton University. It encompasses 17,498 spatial relations distributed over 11,569 images, and is designed to serve as a comprehensive testbed for computer vision technologies. The dataset is built through adversarial crowdsourcing, a method that notably reduces dataset bias and enables the sampling of more intriguing relations from the long tail. The primary application domains of SpatialSense focus on enhancing the spatial reasoning capabilities of computer vision systems and tackling complex spatial relation recognition tasks.
提供机构:
普林斯顿大学
创建时间:
2019-08-07
搜集汇总
数据集介绍

构建方式
SpatialSense数据集的构建方式采用了一种对抗性的众包策略。在这种策略中,人工标注员被要求找出那些难以通过简单的二维空间配置或语言先验来预测的空间关系。这种对抗性的众包方法显著减少了数据集的偏差,并比现有数据集更广泛地采样了有趣的关系。SpatialSense数据集包含了17,498个关系,分布在11,569张图像中,其中包含3,679个独特的对象类别,其中2,139个对象类别仅出现一次,提供了概念的长尾分布的挑战。
特点
SpatialSense数据集的特点在于其对抗性的众包构建方式,这确保了数据集聚焦于需要更高级推理的问题,而不仅仅是简单的空间和语言先验。每个标注员都被明确要求识别正关系或负关系,以确保数据集中每种关系的平等表示。为了解决非穷尽注释带来的问题,我们将任务制定为对单个关系的二分类。此外,SpatialSense数据集在语言和二维线索方面都减少了偏差,使得简单的语言和二维先验在SpatialSense数据集上的表现不如在其他现有空间推理基准数据集上。
使用方法
SpatialSense数据集的使用方法是将两个对象(名称和边界框)作为输入,并要求模型对这些对象之间的特定空间关系进行分类。数据集提供了对象名称和定位,以将对象检测与空间关系识别解耦,以便成功的空间关系识别系统可以直接置于任何对象检测系统之上。数据集包含3,679个独特对象类别之间的关系,其中2,139个对象类别仅出现一次,这使得数据集成为一个具有挑战性的长尾分布的概念。通过这种方式,SpatialSense数据集为空间关系推理提供了一个严格的测试平台,使其不易受到简单先验的影响。
背景与挑战
背景概述
理解图像中对象之间的空间关系是一项极具挑战性的任务。例如,一把椅子即使出现在图像中人的左边,也可能“在”人的“后面”,这取决于人面向的方向。两个在图像中看起来很近的学生,如果他们之间有第三个学生,实际上可能并不“紧挨着”。为了捕捉这类挑战的广泛谱系,Yang等人在2019年提出了SpatialSense数据集,专门用于空间关系识别。该数据集通过对抗性众包的方式构建,要求人类标注者寻找难以仅凭2D空间配置或语言先验来预测的空间关系。这种方法显著减少了数据集的偏差,并比现有数据集更广泛地采样了长尾中的有趣关系。在SpatialSense上,最先进的识别模型的表现与简单基线相当,这表明它们依赖于简单的线索,而不是完全推理这个复杂任务。SpatialSense基准为推进计算机视觉系统的空间推理能力提供了前进的道路。
当前挑战
SpatialSense数据集所解决的领域问题是空间关系识别,它要求算法能够理解图像中对象之间的复杂空间配置和交互。该数据集构建过程中遇到的挑战包括:1)如何通过对抗性众包来收集具有挑战性的空间关系数据,以减少数据集偏差;2)如何设计评估指标,以准确评估算法的空间推理能力;3)如何确保数据集中包含正负关系,以避免评估指标的不公平性。
常用场景
经典使用场景
SpatialSense数据集专门用于空间关系识别,捕捉了广泛的空间关系识别挑战。该数据集通过对抗性众包构建,要求人类标注者找到难以预测的空间关系,从而显著降低了数据集偏差并采样了更多有趣的关系。在SpatialSense上,最先进的识别模型的表现与简单基线相当,这表明它们依赖于简单的线索而不是完全推理这项复杂任务。SpatialSense基准为提高计算机视觉系统的空间推理能力提供了前进的道路。
解决学术问题
SpatialSense数据集解决了现有数据集中存在的语言偏差和2D线索偏差的问题。通过对抗性众包,该数据集能够收集到更具有挑战性的例子,从而更好地评估算法的空间推理能力。此外,SpatialSense数据集包含了正负关系,避免了非穷尽性标注带来的问题,为空间关系识别提供了更准确的评估。
衍生相关工作
SpatialSense数据集的提出,为空间关系识别领域带来了新的研究方向。基于SpatialSense数据集,研究者可以设计更具有挑战性的算法来提高计算机视觉系统的空间推理能力。此外,该数据集的对抗性众包方法也可以应用于其他视觉理解任务,如视觉问答、关系检测等,从而推动计算机视觉领域的发展。
以上内容由遇见数据集搜集并总结生成



