TO-Scene

Name: TO-Scene
Creator: 香港中文大学（深圳）
Published: 2022-07-20 17:29:02
License: 暂无描述

arXiv2022-07-20 更新2024-06-21 收录

下载链接：

https://github.com/GAP-LAB-CUHK-SZ/TO-Scene

下载链接

链接失效反馈

官方服务：

资源简介：

TO-Scene是由香港中文大学（深圳）创建的一个大规模数据集，专注于理解3D桌面场景。该数据集包含20,740个场景，通过设计一个高效且可扩展的框架来收集数据，其中开发了一个众包用户界面，用于将来自ModelNet和ShapeNet的CAD对象转移到ScanNet中的真实桌面上。数据集的创建过程涉及模拟合成对象到真实扫描，并自动进行标注。TO-Scene数据集包含三个变体，用于不同场景的测试，并且提供了一个真实的扫描测试集TO-Real，以验证数据集的实际应用价值。该数据集主要用于解决室内场景解析中的问题，特别是在处理小型桌面实例时的挑战。

TO-Scene is a large-scale dataset focused on 3D desktop scene understanding, created by The Chinese University of Hong Kong, Shenzhen. Comprising 20,740 scenes, the dataset was collected via an efficient and scalable framework, where a crowdsourcing user interface was developed to transfer CAD objects sourced from ModelNet and ShapeNet onto real desktop setups in ScanNet. The dataset creation process involves simulating synthetic objects onto real scans and performing automatic annotation. The TO-Scene dataset includes three variants for testing across different scenarios, and a real scan test set named TO-Real is provided to validate its practical application value. This dataset is primarily intended to address challenges in indoor scene parsing, especially those arising when handling small desktop instances.

提供机构：

香港中文大学（深圳）

创建时间：

2022-03-18

搜集汇总

数据集介绍

构建方式

在三维室内场景理解领域，桌面场景的感知至关重要，但现有数据集普遍缺乏此类专门数据。TO-Scene数据集通过创新的高效采集框架构建，首先从ScanNet中提取真实桌面，并借助开发的众包Web界面，将来自ModelNet和ShapeNet的CAD模型对象智能转移至这些桌面上。随后，通过Blender渲染和TSDF重建技术，将合成对象模拟为具有真实扫描噪声特性的三维点云，实现合成数据与真实场景的无缝融合。整个过程采用自动标注策略，基于CAD模型的边界框生成精确的点级语义标签，最终形成包含20,740个场景的大规模数据集。

特点

TO-Scene数据集的核心特点体现在其多维度设计。它包含三个精心设计的变体：TO_Vanilla提供基础桌面场景解析，TO_Crowd模拟对象拥挤、遮挡严重的复杂场景，TO_ScanNet则保留完整房间扫描，要求算法同时理解桌面对象与大型背景家具。数据集涵盖52类常见桌面对象，实例总数超过20万，具有极高的多样性与丰富性。其独特之处在于通过众包与自动仿真，以较低成本实现了大规模、高质量的数据生产，并提供了与合成数据对应的真实扫描测试集TO-Real，有效验证了数据的实用价值与泛化能力。

使用方法

该数据集适用于三维语义分割与目标检测等场景理解任务。研究人员可按需选用不同变体：TO_Vanilla与TO_Crowd专注于桌面对象解析，TO_ScanNet则用于全房间联合理解。使用前需进行点云体素化等预处理，以适配小尺寸桌面对象的识别。数据集中已划分训练与测试集，支持直接用于模型训练与评估。为提升对桌面小对象的感知能力，论文提出的桌面感知学习策略可集成至主流网络中，通过联合优化桌面对象判别器与主任务损失，显著改善模型在拥挤及复杂场景下的性能。

背景与挑战

背景概述

在三维室内场景理解领域，桌面场景作为人类日常活动（如饮食、书写）的核心载体，其感知与解析具有不可或缺的应用价值。然而，现有主流数据集如ScanNet虽在整体室内场景标注方面成果显著，却普遍缺乏对桌面物体丰富、系统的覆盖，导致数据驱动的算法难以在此细分场景中有效学习。为弥补这一缺陷，香港中文大学（深圳）的徐牧天、陈沛等研究人员于2022年推出了TO-Scene数据集。该数据集通过创新的众包框架，将ModelNet与ShapeNet中的物体CAD模型高效迁移至ScanNet的真实桌面之上，并自动仿真与标注，构建了包含20,740个场景、涵盖52类桌面物体的大规模资源。TO-Scene不仅填补了桌面场景解析的数据空白，更通过其提出的桌面感知学习策略，显著提升了三维语义分割与目标检测任务的性能，为室内场景理解研究提供了新的基准与驱动力。

当前挑战

TO-Scene数据集致力于解决三维桌面场景理解这一特定领域问题，其核心挑战在于如何精准感知与识别尺寸相对较小、常被遮挡的桌面物体。在复杂室内环境中，桌面实例与大型背景家具（如沙发、橱柜）在尺度上存在显著差异，传统点云下采样方法极易导致小物体点云密度稀疏，从而难以提取判别性特征。此外，数据集构建过程亦面临多重挑战：一是需在保证数据真实性与多样性的前提下，以较低成本高效合成大规模桌面场景；二是需设计众包界面与自动标注流程，以克服手动摆放、扫描与标注三维物体带来的高昂人力与时间成本；三是需通过仿真技术弥合合成物体与真实扫描数据之间的域差异，确保模型在现实场景中的泛化能力。这些挑战共同塑造了TO-Scene数据集的独特价值与技术深度。

常用场景

经典使用场景

在三维室内场景理解领域，桌面场景的感知长期面临数据稀缺的挑战。TO-Scene数据集通过提供大规模、多样化的桌面场景样本，成为训练和评估三维语义分割与目标检测算法的经典基准。其三个变体（TO_Vanilla、TO_Crowd、TO_ScanNet）分别模拟了不同复杂度的真实场景，使得研究者能够系统性地探索算法在稀疏、拥挤乃至完整房间环境下的性能表现，为桌面物体识别这一核心任务提供了标准化的评估框架。

解决学术问题

TO-Scene有效解决了三维视觉研究中桌面物体感知数据不足的瓶颈问题。传统室内数据集往往忽视桌面小尺度物体的标注与多样性，导致模型难以学习其精细特征与空间关系。该数据集通过众包界面将CAD模型高效移植到真实扫描的桌面上，并自动生成密集标注，填补了该细分领域的空白。其提出的桌面感知学习策略，通过联合优化桌面物体判别器与主任务损失，显著提升了小尺度实例在复杂背景下的区分能力，推动了三维场景解析算法在细粒度理解方面的进展。

衍生相关工作

TO-Scene的发布催生了一系列专注于小尺度物体感知与桌面场景理解的研究工作。其提出的桌面感知学习策略被后续研究借鉴，用于改进三维点云网络中针对尺寸差异巨大物体的处理机制。此外，数据集构建中采用的众包-仿真-自动标注框架，为其他特定场景三维数据集的低成本构建提供了方法论参考。在算法层面，基于TO-Scene的基准测试推动了如Point Transformer、VoteNet等先进模型在细粒度实例分割与检测任务上的适配与优化，衍生出更多专注于上下文感知与多尺度特征融合的创新网络架构。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集