RGBP

Name: RGBP
Creator: 西南大学; 西湖大学
Published: 2026-04-01 21:54:05
License: 暂无描述

arXiv2026-04-01 更新2026-04-03 收录

下载链接：

https://ZimoCao.github.io/ProCap/

下载链接

链接失效反馈

官方服务：

资源简介：

RGBP是由西南大学和西湖大学联合创建的首个大规模空间增强现实语义基准数据集，包含65个多样化物理场景和超过18万条投影数据。该数据集通过投影-相机系统采集，涵盖平面、轻度弯曲和高度弯曲三种表面形态，并提供了物理场景与投影内容的解耦标注（包括分割掩码和独立描述文本）。其数据来源融合了COCO、nocaps等公开数据集，通过语言模型辅助生成高质量标注，旨在解决SAR场景中虚拟-物理内容语义混淆的核心问题，为视觉语言模型在空间增强现实领域的理解与推理提供基础支持。

RGBP is the first large-scale spatial augmented reality semantic benchmark dataset jointly developed by Southwest University and Westlake University. It comprises 65 diverse physical scenarios and over 180,000 projection data entries. Collected via a projection-camera system, this dataset covers three types of surface morphologies: planar, slightly curved, and highly curved. It additionally provides decoupled annotations for physical scenes and their corresponding projection content, including segmentation masks and independent descriptive texts. The dataset incorporates public datasets such as COCO and nocaps as its data sources, and generates high-quality annotations with the assistance of language models. It aims to address the core issue of semantic confusion between virtual and physical content in spatial augmented reality (SAR) scenarios, providing fundamental support for the understanding and reasoning of vision-language models in the spatial augmented reality domain.

提供机构：

西南大学; 西湖大学

创建时间：

2026-04-01

原始信息汇总

ProCap 数据集概述

数据集基本信息

数据集名称: RGBP (RGB + Projections)
关联研究/框架: ProCap (Projection-Aware Captioning for Spatial Augmented Reality)
发布会议: IEEE VR 2026 (2026 IEEE Conference on Virtual Reality and 3D User Interfaces)
数据集状态: 部分内容仍在进行中 (RGBP Dataset (In progress))

数据集简介与目的

RGBP 是首个大规模空间增强现实 (SAR) 语义基准数据集。
旨在解决 SAR 场景中，标准视觉语言模型难以区分物理场景与投影内容（虚拟-物理模糊性）的问题。
为 ProCap 框架提供支持，该框架通过明确解耦投影内容与物理场景，为 SAR 的智能交互（如场景推理、回答用户查询）奠定语义基础。

数据集内容与规模

场景多样性: 包含 65 个不同的物理场景。
投影数量: 包含超过 180,000 个投影。
标注特点: 提供密集的、解耦的标注（即对物理场景和投影内容分别进行标注）。
场景聚焦: 当前数据集专注于基础投影场景，其中内容被限定在矩形边界内，并投射到主要为平面或轻度弯曲的表面上。

数据集应用与评估

支持任务: 用于训练和评估能够分别描述物理场景和投影内容的模型。
评估协议: 研究建立了一种使用任务特定令牌的双重描述评估协议，以独立评估物理场景和投影描述。

相关资源

论文: ProCap: Projection-Aware Captioning for Spatial Augmented Reality
代码: 可通过页面提供的“Code”链接获取。
数据集: 可通过页面提供的“RGBP Dataset”链接获取。
模型检查点: 可通过页面提供的“Checkpoints”链接获取。

搜集汇总

数据集介绍

构建方式

在空间增强现实领域，RGBP数据集的构建体现了对虚拟与物理层语义解耦的前瞻性探索。该数据集通过精心设计的投影-相机系统采集，涵盖了65个多样化的物理场景与超过18万次投影实例。数据采集过程严格模拟真实环境条件，通过调节环境光照强度与投影角度，引入了从平面到高度曲面的多种几何形态，确保了数据在复杂光照与形变下的代表性。每个场景均配备了精确的二元分割掩码，并采用语言模型辅助生成高质量的双重标注——分别为物理场景与投影内容提供独立的描述文本，从而建立了首个大规模、语义解耦的SAR基准数据集。

特点

RGBP数据集的核心特征在于其首创的双重标注体系与层次化解耦结构。区别于传统视觉数据集，该数据集不仅提供高分辨率的RGB图像与投影掩码，更关键的是为每个样本配备了物理场景与投影内容两套独立的真实描述，从而精准对应SAR环境中虚拟与物理元素的语义隔离。数据覆盖了广泛的光照条件与表面几何变化，从均匀照明到高噪声环境，从平面到复杂曲面，确保了模型在多样失真下的鲁棒性。此外，数据集划分包含已见场景与未见场景，支持模型在内容识别与环境泛化方面的双重评估，为SAR语义理解提供了前所未有的细粒度基准。

使用方法

RGBP数据集的使用围绕其双重标注协议展开，旨在训练与评估模型在SAR场景中的解耦语义理解能力。研究者可利用该数据集训练视觉语言模型，通过输入复合图像，引导模型分别生成物理场景与投影内容的独立描述。评估阶段采用任务特定令牌（如[SCENE]与[PROJ]）来区分生成目标，并利用CIDEr、SPICE等指标对两部分描述进行独立评分，从而避免传统整体评价中的语义混淆。该数据集不仅支持端到端的双描述生成任务，还可用于投影分割、特征检索等模块的验证，为开发面向SAR的智能交互系统提供坚实的实验基础。

背景与挑战

背景概述

RGBP数据集是首个面向空间增强现实（SAR）语义理解的大规模基准数据集，由西南大学、西湖大学等机构的研究团队于2026年提出。该数据集旨在解决SAR环境中物理场景与投影内容之间的虚拟-物理模糊性问题，为核心研究问题——即如何使视觉语言模型在复杂投影环境下准确、解耦地理解并描述物理场景与投影内容——提供了重要的数据基础。通过构建包含65个多样化物理场景和超过18万条投影图像的丰富语料库，RGBP推动了SAR研究从传统的低层几何校准向高层多模态推理的范式转变，对实现自主、情境感知的SAR智能体具有深远影响。

当前挑战

RGBP数据集所针对的核心领域挑战在于解决空间增强现实中的虚拟-物理模糊性，即标准视觉语言模型难以区分物理场景实体与投影叠加内容，常产生混淆描述。在数据集构建过程中，主要面临三大挑战：一是需在复杂光照、几何畸变及表面遮挡条件下，高质量采集并标注海量投影-场景复合图像；二是必须为同一图像提供物理场景与投影内容两套独立、精确的语义标注，以支持解耦评估；三是需设计新颖的双重描述评估协议，以独立衡量模型对场景与投影的理解能力，避免传统单一指标在复杂SAR场景中的评估偏差。

常用场景

经典使用场景

在空间增强现实领域，RGBP数据集为视觉语言模型提供了首个大规模语义基准测试平台。该数据集通过包含65个多样化物理场景和超过18万次投影的复合图像，构建了虚拟内容与物理环境交织的复杂视觉环境。其经典使用场景聚焦于训练和评估模型在SAR环境中的双重描述能力，即要求模型能够准确区分并独立描述物理场景的实体对象与投影叠加的虚拟内容。这种场景设计模拟了现实世界中投影映射系统的典型应用，为模型理解虚实混合的视觉信息提供了标准化测试框架。

解决学术问题

RGBP数据集有效解决了空间增强现实中虚拟物理模糊性这一核心学术难题。传统视觉语言模型在处理SAR场景时，往往无法区分投影内容与物理实体，导致描述混淆和语义幻觉。该数据集通过提供精确的投影分割掩码和独立标注的双重真实描述，为模型训练提供了明确的监督信号。其意义在于首次将SAR研究从低层次的几何校准任务，提升至高层次的语义理解层面，为构建自主、上下文感知的增强现实智能体奠定了数据基础。该数据集的影响体现在推动了投影感知描述框架的发展，并为多模态推理在复杂物理环境中的应用开辟了新路径。

衍生相关工作

RGBP数据集催生了一系列围绕投影感知描述与SAR场景理解的经典研究工作。以该数据集为基础的ProCap框架提出了两阶段处理流程，通过自动分割模块分离虚拟与物理层，并利用区域感知检索机制增强投影内容的语义识别。相关衍生工作进一步探索了将ProCap作为混合专家架构中的领域专用模块，以实现更高效的虚实内容解耦。同时，数据集的因子化标注方案启发了基于自然语言指令的SAR场景合成研究，推动了文本到投影生成模型的发展。这些工作共同构成了SAR语义理解的技术生态，将投影映射从视觉呈现工具转变为具备深度推理能力的智能交互平台。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集