360+x数据集
收藏arXiv2024-04-08 更新2024-06-21 收录
下载链接:
https://x360dataset.github.io/
下载链接
链接失效反馈官方服务:
资源简介:
360+x数据集是由伯明翰大学的机器智能+x研究组创建的一个大型多模态数据集,旨在支持全景场景理解研究。该数据集包含多种视角,如第一人称、第三人称和全景视角,并涵盖视频、多通道音频、方向双耳延迟、位置数据和文本场景描述等多种模态。数据集包含2152个视频,覆盖28个场景类别,旨在模拟真实世界中的信息获取方式,并推动社区从更多样化的角度解决场景理解问题。
The 360+x Dataset is a large-scale multimodal dataset developed by the Machine Intelligence +X Research Group at the University of Birmingham, specifically designed to support research on panoramic scene understanding. This dataset incorporates multiple perspectives including first-person, third-person, and panoramic views, and encompasses diverse modalities such as video, multi-channel audio, directional binaural delays, position data, and textual scene descriptions. Comprising 2152 videos spanning 28 scene categories, the dataset aims to simulate real-world information acquisition patterns and facilitate the community to address scene understanding challenges from more diversified perspectives.
提供机构:
机器智能+x研究组,伯明翰大学,英国
创建时间:
2024-04-01
搜集汇总
数据集介绍

构建方式
在场景理解领域,现有数据集多聚焦于单一视角或模态,难以模拟人类通过多感官协同感知世界的真实过程。360+x数据集通过精心设计的采集系统,实现了对真实场景的全景式多模态捕捉。该数据集采用Insta 360 One X2与Snapchat Spectacles 3两种设备同步采集,前者捕获5760×2880分辨率的360度全景视频与四通道定向音频,后者以2432×1216分辨率记录第一人称双目及单目视频。通过光学流分析确定全景球面中运动最显著区域,逆向投影生成无畸变的第三人称前视图;同时利用双耳时间延迟算法提取音频方向信息,并辅以GPS定位、天气状况及场景文本描述等元数据,最终通过时间对齐与空间配准技术,构建出涵盖28类日常生活场景的232个多视角同步数据实例。
特点
作为首个全景多模态场景理解数据集,360+x的突出特点在于其视角与模态的完备性。数据集同时提供360度全景、第三人称前视、第一人称单目及双目四种视觉视角,并融合多通道音频、定向双耳延迟、地理位置与场景描述等多维信息,实现了对真实场景的全息化表征。其数据覆盖15个室内与13个室外场景类别,平均视频时长约6.2分钟,包含38类细粒度动作实例标注,且每个视频平均包含更丰富的并发行为,较传统数据集具有更高的场景复杂度与真实性。数据采集横跨欧亚多国城市,兼顾不同天气与光照条件,并通过人脸模糊化处理保障隐私伦理,为多模态协同学习提供了高度仿真的研究基础。
使用方法
该数据集支持从多视角融合与多模态协同两个维度推进场景理解研究。研究者可利用其开展视频场景分类、时序动作定位、跨模态检索、自监督表征学习及数据集自适应迁移等五项核心任务。实验表明,融合全景、前视与第一人称视角能显著提升分类精度;引入音频与定向延迟信息可优化时序动作检测性能。数据集提供分块化数据子集、降分辨率版本及预提取特征,便于快速实验验证。基于分层注意力机制的多模态融合策略被证明能有效整合视觉、音频与空间线索,而通过视频节奏预测与片段重排等自监督方法预训练的模型,在多项任务上表现优于全监督基线。该数据集亦可作为预训练源,通过微调迁移提升其他数据集上的模型性能。
背景与挑战
背景概述
全景多模态场景理解是计算机视觉与人工智能领域的前沿方向,旨在模仿人类通过多视角、多感官信息综合认知环境的能力。现有数据集多聚焦于单一视角或有限模态,难以支撑对复杂现实场景的全面解析。为此,伯明翰大学机器智能+x研究组于近年推出了360+x数据集,首次系统整合了第三人称全景与正面视角、第一人称单目与双目视角,并同步采集视频、多通道音频、方向性双耳延迟、地理位置及文本描述等多模态数据,覆盖28类日常生活场景。该数据集的构建核心在于突破传统单视角局限,以全景化、多模态的数据组织形式,为机器人感知、智能系统环境理解等研究提供更贴近真实世界的信息基础,推动场景理解向更全面、更仿生的方向发展。
当前挑战
360+x数据集致力于解决全景多模态场景理解这一复杂问题,其核心挑战在于如何有效融合多视角、多模态数据以提升模型对动态、开放环境的综合认知能力。具体而言,该领域面临多模态对齐与融合的难题,例如视频、音频及空间音频信号在时间与空间上的精确同步,以及跨模态特征的有效集成。在数据集构建过程中,挑战同样显著:需设计精密的数据采集方案以实现多设备同步录制,并解决全景视频拼接、视角转换中的几何畸变问题;同时,为保障数据多样性与代表性,需在场景选择、天气光照条件、声音源分布等方面进行严格规划,并在全球多地域进行采集以覆盖更广泛的生活场景。此外,隐私保护与伦理合规性要求对涉及人脸、声音等敏感信息进行匿名化处理,增加了数据后期处理的复杂度。
常用场景
经典使用场景
在计算机视觉与多模态学习领域,360+x数据集以其全景多视角与丰富模态的独特架构,为场景理解任务提供了前所未有的实验平台。该数据集最经典的使用场景在于视频场景分类任务,研究者通过整合360度全景视角、第三人称前视角以及自我中心双目视角,结合视频、音频及定向双耳延迟等多模态信息,构建了层次化注意力融合机制。实验表明,多视角与多模态的协同作用显著提升了分类精度,其中全景视角因其完整的场景覆盖展现出最优的单视角性能,而多模态融合进一步将平均精度提升了约17个百分点,验证了全景多模态数据在复杂场景解析中的核心价值。
实际应用
在实际应用层面,360+x数据集为智能机器人、增强现实及自动驾驶等领域的场景感知系统提供了关键数据支持。例如,在服务机器人导航与交互任务中,数据集提供的自我中心视角与全景视角的对应关系,可帮助机器人理解自身在环境中的相对位置与周围活动;其定向音频与双耳延迟信息则能辅助声源定位,提升在嘈杂环境中的情境感知能力。此外,数据集涵盖的28类日常生活场景与多样化的天气、光照条件,为模型在真实世界中的部署提供了高保真的测试环境,有助于降低仿真与现实之间的领域差异,推动具身智能系统在复杂开放环境中的实用化进展。
衍生相关工作
基于360+x数据集的多视角多模态特性,已衍生出一系列聚焦于跨模态学习与全景理解的经典研究工作。在特征融合方面,研究者提出了层次化注意力机制,以定向双耳延迟为查询引导音频特征,再以音频为查询与视频特征交互,实现了多模态信息的协同编码。在自监督学习领域,视频节奏预测与片段顺序重排等预训练任务被扩展至音频与空间音频模态,通过跨模态对齐的增强策略提升了表征学习效果。此外,该数据集还作为预训练源被迁移至THUMOS14、EPIC-Kitchens等基准数据集,验证了其在提升时序动作定位与细粒度活动识别任务上的泛化能力,催生了面向全景多模态场景的模型适应性研究新方向。
以上内容由遇见数据集搜集并总结生成



