five

Bongard-HOI

收藏
arXiv2023-04-13 更新2024-06-21 收录
下载链接:
https://github.com/nvlabs/Bongard-HOI
下载链接
链接失效反馈
官方服务:
资源简介:
Bongard-HOI数据集是由东北大学研究团队开发的一个新的视觉推理基准,专注于通过自然图像进行人类-物体交互(HOI)的组合学习。该数据集受到经典Bongard问题(BPs)的启发,具有两个显著特点:少样本概念学习和依赖上下文的推理。数据集精心策划了少样本实例,其中正负图像仅在动作标签上存在差异,使得仅通过物体类别识别无法完成基准测试。此外,Bongard-HOI设计了多个测试集,以系统地研究视觉学习模型的泛化能力,通过改变训练和测试集中HOI概念的重叠程度,从部分重叠到无重叠。Bongard-HOI为当前的视觉识别模型提出了重大挑战,旨在推动视觉推理研究,特别是在整体感知-推理系统和更好的表示学习方面。

The Bongard-HOI dataset is a novel visual reasoning benchmark developed by a research team from Northeastern University (China), focusing on compositional learning of human-object interaction (HOI) using natural images. Inspired by classic Bongard Problems (BPs), this dataset exhibits two prominent characteristics: few-shot concept learning and context-dependent reasoning. The dataset carefully curates few-shot instances, where positive and negative images differ only in their action labels, rendering the benchmark unsolvable solely through object category recognition. Furthermore, the Bongard-HOI dataset includes multiple test splits designed to systematically investigate the generalization performance of visual learning models, by adjusting the degree of overlap between HOI concepts in the training and test sets—ranging from partial overlap to zero overlap. Bongard-HOI poses significant challenges to contemporary visual recognition models, and aims to advance visual reasoning research, particularly in the areas of holistic perception-reasoning systems and enhanced representation learning.
提供机构:
东北大学
创建时间:
2022-05-27
搜集汇总
数据集介绍
main_image_url
构建方式
Bongard-HOI数据集的构建方式借鉴了经典Bongard问题(BPs)的两个理想特征:少样本概念学习和上下文依赖推理。研究团队精心挑选了少样本实例,并引入了硬负样本,其中正负图像仅在动作标签上存在差异,使得仅通过识别对象类别无法完成基准测试。此外,设计了多个测试集,系统地研究视觉学习模型的泛化能力,通过改变训练和测试集中HOI概念的重叠程度,从部分重叠到无重叠。
特点
Bongard-HOI数据集的特点在于其专注于人类-物体交互(HOIs)的组合学习,要求显式的组合推理能力。数据集继承了经典Bongard问题的两个重要特性:少样本二元预测和上下文依赖推理。此外,Bongard-HOI将原始的合成图形升级为自然图像,包含了丰富的视觉刺激,如类内方差大、背景杂乱、场景布局多样等。
使用方法
Bongard-HOI数据集适用于研究少样本视觉推理,特别是对于人类-物体交互的组合学习。使用该数据集时,研究者可以评估模型在少样本情况下的二元预测能力,并通过多个测试集分析模型的泛化能力。数据集的构建方式和设计特点使其成为测试和提升视觉推理模型性能的理想平台。
背景与挑战
背景概述
Bongard-HOI数据集由Northeastern University、UCLA和NVIDIA的研究人员于2022年引入,旨在填补当前视觉模式识别模型与人类视觉认知之间的显著差距,特别是在少样本学习和组合推理方面。该数据集以经典的Bongard问题为灵感,专注于从自然图像中学习人-物交互(HOI)的组合学习。Bongard-HOI的创建不仅推动了视觉推理研究的前沿,还为开发更接近人类水平的视觉认知系统提供了新的基准。
当前挑战
Bongard-HOI数据集面临的主要挑战包括:1) 解决领域问题,即在少样本情况下进行人-物交互的组合推理;2) 构建过程中遇到的挑战,如正负样本仅在动作标签上存在差异,使得仅通过物体类别识别无法完成任务。此外,数据集设计了多个测试集来系统研究视觉学习模型的泛化能力,从部分重叠到无重叠的HOI概念,这为当前的视觉识别模型带来了实质性的挑战。
常用场景
经典使用场景
Bongard-HOI 数据集的经典使用场景在于评估和提升视觉识别模型在少样本学习环境下的组合推理能力。该数据集通过自然图像中的人类-物体交互(HOI)实例,模拟了人类在极少样本情况下理解新概念的能力。研究者们利用此数据集进行模型训练和测试,以探索如何在有限的训练数据中实现高效的视觉概念组合学习。
解决学术问题
Bongard-HOI 数据集解决了当前视觉模式识别模型在少样本学习和组合推理方面的不足。它强调了模型在面对新颖概念时,不仅需要识别物体类别,还需理解复杂的视觉关系。这一数据集的引入推动了视觉推理领域的研究,特别是在整体感知-推理系统和更好的表征学习方面,为实现人类级别的视觉认知提供了新的研究方向。
衍生相关工作
Bongard-HOI 数据集的提出激发了一系列相关研究工作,包括改进的少样本学习算法、组合推理模型和视觉关系检测技术。例如,研究者们开发了基于关系网络的图像编码方法,以增强模型对视觉关系的理解。此外,该数据集还促进了元学习和非情节学习方法的发展,推动了视觉推理和少样本学习领域的交叉研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作