SceneDiff Benchmark

Name: SceneDiff Benchmark
Creator: 伊利诺伊大学厄巴纳-香槟分校, Meta
Published: 2025-12-19 02:59:02
License: 暂无描述

arXiv2025-12-19 更新2025-12-20 收录

下载链接：

https://yuqunw.github.io/SceneDiff

下载链接

链接失效反馈

官方服务：

资源简介：

SceneDiff Benchmark是由伊利诺伊大学厄巴纳-香槟分校和Meta联合创建的首个多视角物体变化检测基准数据集，包含350个真实世界视频对，涵盖50个多样化场景和20个独特场景类别。数据集包含200个手动收集的视频对和150个从HD-Epic数据集中提取的自我中心视频对，总计标注了1009个变化物体实例。数据通过基于SAM2的专用标注工具进行详细标注，包括物体分割掩码和变化类型（添加、移除或移动）。该数据集旨在解决机器人整理、施工进度监控等应用中因视角变化导致的虚假物体变化检测问题，为多视角场景理解提供了重要基准。

The SceneDiff Benchmark, co-developed by the University of Illinois Urbana-Champaign and Meta, is the first benchmark dataset for multi-view object change detection. It contains 350 real-world video pairs, covering 50 diverse scenarios and 20 unique scene categories. The dataset consists of 200 manually collected video pairs and 150 egocentric video pairs extracted from the HD-Epic dataset, with a total of 1009 annotated changed object instances. It is meticulously annotated using a dedicated SAM2-based annotation tool, providing object segmentation masks and change types including addition, removal, or displacement. This dataset aims to address the issue of spurious object change detection caused by viewpoint variations in applications such as robotic rearrangement and construction progress monitoring, serving as a critical benchmark for multi-view scene understanding.

提供机构：

伊利诺伊大学厄巴纳-香槟分校, Meta

创建时间：

2025-12-19

原始信息汇总

SceneDiff: 多视角物体变化检测基准与方法

数据集概述

名称: SceneDiff Benchmark
核心问题: 识别同一场景在不同时间拍摄的一对图像或视频中，被添加、移除或移动的物体。
应用场景: 机器人整理、施工进度与安全监控等。

数据集详情

类型: 首个带物体实例标注的多视角变化检测基准。
规模: 包含350个多样化的视频对，涵盖数千个已变化的物体。

方法概述

名称: SceneDiff方法
特点: 一种新的免训练多视角物体变化检测方法。
技术基础: 利用预训练的3D、分割和图像编码模型。
流程:
1. 在3D空间中对齐捕获的场景。
2. 提取物体区域。
3. 比较空间和语义区域特征以检测变化。
性能: 在多视角和双视角基准测试中，相较于现有方法有显著提升（相对AP分别提升94%和37.4%）。

标注工具

基础: 基于SAM2构建。
功能: 允许标注者提供稀疏点提示和物体属性。
优势: 系统离线跨视频对传播掩码并提供审查界面，大幅减少了标注时间。

获取与致谢

发布: 基准和代码将公开发布。
支持: 本研究部分由NSF IIS grant 2312102支持。S.W. 获得NSF 2331878、2340254以及英特尔、亚马逊和IBM的研究资助支持。
计算资源: 使用了Delta先进计算资源。
致谢: 感谢项目开发期间的讨论者、论文建议与反馈者，以及数据收集与标注人员。

搜集汇总

数据集介绍

构建方式

在计算机视觉领域，多视角变化检测旨在识别同一场景在不同时间捕获的图像或视频中发生变化的物体。SceneDiff Benchmark作为首个提供物体实例级标注的多视角变化检测基准，其构建过程体现了严谨的数据采集与标注策略。该数据集包含350个真实世界视频对，涵盖50个多样化的场景和20个独特的场景类别。数据来源分为两部分：200个视频对通过手动采集获得，覆盖广泛的室内外日常场景；另外150个视频对则从HD-Epic数据集中提取，专注于烹饪活动中自然发生的物体变化。为确保标注质量，研究团队开发了基于SAM2的专用标注工具，通过稀疏点提示在选定帧上标注变化的物体，并利用模型将掩码传播至所有帧，从而将每对视频的标注时间从约30分钟大幅缩减至5分钟。所有标注均包含完整的实例分割掩码，并按照添加、移除或移动三种状态对每个变化物体进行分类。

特点

SceneDiff Benchmark的显著特点在于其针对多视角物体变化检测任务的专门设计，弥补了现有数据集的空白。与多数假设视角近似或仅提供语义标签的基准不同，该数据集首次在视频序列中提供了密集的物体实例级标注，并允许捕获前后视角存在显著差异。数据集包含总计1009个标注物体，分为Varied子集和Kitchen子集，前者涵盖物体尺寸较大、序列较长的多样化场景，后者则包含更多可变形物体，反映了实际应用中的复杂性。此外，数据集提供了详细的物体属性记录，包括物体名称、尺寸和可变形性，并建立了兼顾逐视图和逐场景评估的协议，重点关注变化物体的正确识别而非分割质量，采用基于点的评估方法以适应不同输出形式。

使用方法

SceneDiff Benchmark为评估多视角物体变化检测算法提供了标准化的测试平台。在使用时，研究者通常将算法应用于数据集的视频对上，目标是在给定捕获前后两个视频序列的条件下，识别出所有视图中可验证的物体级变化，并忽略仅由视角差异造成的表观变化。评估过程支持两种模式：逐视图评估将每个输入视图的预测独立转换为点并与真实标注框匹配；逐场景评估则要求算法将跨帧和跨视频的检测关联起来，形成一致的物体级变化，并正确分类其变化类型。数据集提供的验证集可用于方法训练或超参数调优，而测试集则用于最终性能比较。该基准不仅可用于评估端到端的变化检测方法，也能作为下游任务来评估三维重建、分割和视觉特征模型在复杂真实场景下的鲁棒性与泛化能力。

背景与挑战

背景概述

多视角物体变化检测是计算机视觉领域的一项核心任务，旨在识别同一场景在不同时间捕获的图像或视频序列中物体的添加、移除或移动。这一能力对于机器人整理、施工进度监控等实际应用至关重要。然而，现有数据集多假设视角相似或仅提供语义级标注，难以应对真实场景中视角变化带来的挑战。为此，伊利诺伊大学厄巴纳-香槟分校与Meta的研究团队于2025年推出了SceneDiff Benchmark，这是首个具备物体实例级标注的多视角变化检测基准数据集。该数据集包含350个多样化的视频对，涵盖室内外20类场景，通过精细的实例分割掩码标注，为模型提供了跨视角的物体级真值数据。其建立不仅填补了多视角实例级变化检测评估的空白，也为三维场景理解与鲁棒性算法的发展提供了重要支撑。

当前挑战

SceneDiff Benchmark致力于解决多视角物体变化检测这一领域核心问题，其挑战主要源于视角差异、光照变化与遮挡等因素导致的虚假变化信号。具体而言，模型需在视角显著偏移的条件下，准确建立时序间的对应关系，区分真实物体变化与由视角引起的表观差异。在数据集构建过程中，研究团队面临密集实例标注的艰巨任务。为此，他们开发了基于SAM2的专用标注工具，通过稀疏点提示与掩码传播，将每对视频的标注时间从约30分钟大幅缩减至5分钟，从而高效完成了涵盖上千个变化物体的精细标注。尽管如此，数据集中复杂场景的重复物体、动态内容处理以及极端光照条件等，仍对现有方法的泛化能力构成持续考验。

常用场景

经典使用场景

在计算机视觉领域，多视角场景理解是机器人感知与环境交互的核心挑战之一。SceneDiff Benchmark作为首个具备实例级标注的多视角物体变化检测数据集，其经典使用场景聚焦于解决因视角剧烈变化、光照差异及遮挡等因素导致的虚假变化识别难题。该数据集通过提供350对真实世界视频序列，涵盖了室内外多样化场景，支持研究者训练与评估模型在复杂动态环境中的鲁棒性。其设计允许模型从多帧信息中融合三维几何与语义特征，从而实现对物体“添加、移除、移动”等状态变化的精确检测，为多视角对齐与变化推理提供了标准化的实验平台。

衍生相关工作

围绕SceneDiff Benchmark衍生的经典研究工作主要集中于多视角几何重建与变化检测方法的创新。例如，基于神经辐射场（NeRF）或三维高斯泼溅（3D Gaussian Splatting）的渲染比较方法，通过重建前后场景的三维表示来识别差异。同时，结合视觉基础模型（如DINOv3、SAM）的零样本学习方法，利用预训练特征实现跨视角的物体匹配与变化推理。这些工作进一步推动了三维感知与语义理解的融合，催生了如基于特征重投影的几何一致性检验、区域级语义匹配等新型算法范式，为动态场景理解提供了更丰富的技术路径。

数据集最近研究