YOWO Dataset

Name: YOWO Dataset
Creator: 富士通研究所（日本）
Published: 2025-11-21 00:36:16
License: 暂无描述

arXiv2025-11-21 更新2025-11-22 收录

下载链接：

https://sites.google.com/view/yowo/home

下载链接

链接失效反馈

官方服务：

资源简介：

YOWO数据集是由富士通研究所构建的首个面向室内场景建模与天花板相机标定的协同采集基准数据集。该数据集通过AI2THOR和Gym-UnrealCV仿真引擎生成，包含1个头部RGB-D视角与5-17个天花板相机视角的同步视频流，涵盖低中高三种共视度场景。数据采集过程模拟移动代理遍历室内环境，同步记录自我中心视角的深度信息与多视角RGB观测，创新性地融合静态场景特征与移动关键点。本数据集主要应用于室内三维重建、多相机标定、视觉定位等领域，旨在解决传统视觉定位方法在视角差异下的特征歧义问题。

提供机构：

富士通研究所（日本）

创建时间：

2025-11-21

搜集汇总

数据集介绍

构建方式

在室内多视角视觉定位领域，YOWO数据集的构建采用了一种创新的协同采集范式。该数据集通过模拟引擎AI2THOR和Gym-UnrealCV生成合成数据，模拟真实室内环境中天花板固定相机与头戴式RGB-D移动相机的协同工作场景。构建过程中，移动代理在场景中穿行一次，同步采集第一视角的深度感知数据与多视角天花板相机的二维观测数据，形成时空对齐的多模态视觉序列。

特点

该数据集的核心特征体现在其多维度协同感知架构上。不仅包含传统静态场景特征点，还创新性地引入了移动代理的关键点轨迹作为跨相机关联线索。数据集涵盖住宅、车库、学校等多样化室内场景，并通过对纹理、光照和物体布局的系统性控制，构建了具有视觉模糊性与结构对称性的挑战性样本。其独特之处在于首次实现了场景布局重建与相机位姿注册任务的联合标注，为多传感器融合研究提供了基准。

使用方法

研究者可基于该数据集开展室内场景理解与相机标定的联合优化研究。使用时应先解析同步的时间戳信息，建立移动代理在自我中心坐标系与全局坐标系下的轨迹关联。通过提取场景静态特征点与移动关键点的二维-三维对应关系，可构建因子图模型进行联合优化。该数据集支持对SLAM算法、视觉定位方法以及跨视角匹配技术的性能评估，并为位置感知应用提供标准化测试平台。

背景与挑战

背景概述

YOWO数据集由富士通研究院于2025年提出，旨在解决室内场景映射与天花板摄像头注册的联合优化问题。该数据集通过模拟引擎生成合成数据，支持移动代理携带头戴式RGB-D相机与同步天花板摄像头协同采集，填补了多视角协作数据在室内环境中的空白。其核心研究聚焦于利用移动关键点克服视觉模糊性，推动室内定位与增强现实等应用的发展，为多传感器融合研究提供了首个基准平台。

当前挑战

该数据集需应对两大挑战：在领域问题层面，传统视觉定位方法依赖静态场景特征，易受纹理模糊与视角差异影响，导致摄像头位姿注册精度不足；在构建过程中，模拟数据需平衡真实性与多样性，确保移动代理轨迹覆盖完整场景，同时克服多摄像头视角隔离与时空数据对齐的复杂性，以保障联合优化的有效性。

常用场景

解决学术问题

该数据集有效解决了室内视觉定位中因视角差异导致的特征匹配歧义性问题。传统视觉定位方法依赖静态场景特征，在纹理重复或光照变化的室内环境中易产生位姿估计偏差。YOWO通过引入移动智能体的动态关键点作为跨摄像机关联特征，显著提升了在视觉歧义场景下的定位鲁棒性。其提供的真实尺度场景布局与摄像机位姿真值，为评估联合优化算法的精度提供了可靠依据，推动了多传感器融合在复杂室内环境中的理论研究。

衍生相关工作

基于YOWO数据集提出的联合优化框架，衍生出多项创新性研究。OMECC等后续工作改进了移动关键点检测算法，通过人体骨架时序特征增强了跨摄像机关联的稳定性。在因子图优化方面，研究者扩展了时空约束模型，将惯性测量单元数据与视觉观测进行深度融合。另有研究团队受其启发，开发了面向动态环境的自适应聚类方法，解决了多智能体场景下的摄像机分组问题。这些衍生工作共同推动了视觉定位与场景重建技术的协同发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集