five

nyuv2

收藏
Hugging Face2025-05-22 更新2025-05-23 收录
下载链接:
https://huggingface.co/datasets/jagennath-hari/nyuv2
下载链接
链接失效反馈
官方服务:
资源简介:
NYUv2是一个广泛用于场景理解任务的基准RGB-D数据集,包括室内语义分割、深度估计和实例分割。这个版本已经预处理,包含了校准的RGB图像、毫米级的深度图、语义掩码和实例掩码。每个样本都有一致的id,并分为训练集、验证集和测试集。

NYUv2 is a widely adopted benchmark RGB-D dataset for scene understanding tasks, covering indoor semantic segmentation, depth estimation, and instance segmentation. This preprocessed version includes calibrated RGB images, millimeter-precision depth maps, semantic masks, and instance masks. Each sample is assigned a consistent unique ID, and the dataset is split into training, validation, and test sets.
创建时间:
2025-05-22
搜集汇总
数据集介绍
main_image_url
构建方式
在计算机视觉领域,NYUv2数据集作为室内场景理解的重要基准,其构建过程体现了严谨的数据采集与处理流程。原始数据通过微软Kinect传感器在多种室内环境中捕获,包含同步的RGB图像和深度信息。本预处理版本将原始MATLAB格式转换为现代机器学习框架兼容的结构,整合了未失真的RGB图像、以毫米为单位的深度图、语义分割掩码及实例分割掩码,所有数据均采用TIFF格式以保持精度,并划分为训练集、验证集和测试集,确保数据的一致性和可用性。
特点
NYUv2数据集在室内场景分析中展现出多模态融合的显著特点,每个样本均提供对齐的RGB图像、深度图、语义标签和实例标识。深度信息以毫米为单位存储,语义与实例掩码经过标准化缩放处理,有效支持像素级预测任务。数据集涵盖1449个样本,涵盖多样室内环境如办公室、卧室和厨房,其丰富的注释为深度估计、语义分割和实例分割等任务提供了全面基准,同时附带的元数据文件包括相机参数和类别映射,进一步增强了研究的可复现性。
使用方法
利用该数据集时,用户可通过Hugging Face的datasets库直接加载,便捷访问各模态数据。深度图需通过缩放因子还原为米制单位,语义与实例掩码则需逆向计算以恢复原始标签值。配套的JSON文件提供了相机内参、类别名称及缩放参数,辅助用户进行数据预处理和模型训练。这种设计使得数据集能够无缝集成到现代深度学习流程中,支持端到端的场景理解实验,同时确保数据处理的准确性与效率。
背景与挑战
背景概述
NYUv2数据集由纽约大学研究团队于2012年发布,聚焦于室内场景理解这一计算机视觉核心问题。该数据集通过同步采集RGB图像与深度信息,为室内语义分割、深度估计及实例分割任务提供了多模态基准数据。其创新性地结合了彩色视觉与三维空间感知,显著推动了室内环境智能感知技术的发展,成为机器人导航、增强现实等领域的重要研究基础。
当前挑战
在领域问题层面,NYUv2需解决室内场景中复杂遮挡条件下的三维结构重建难题,以及光照变化对深度感知精度的影响。构建过程中面临多传感器数据对齐的技术挑战,包括RGB相机与深度传感器的时空同步校准,以及原始深度数据的噪声滤除与语义标注的一致性验证。此外,大规模场景标注需要克服人工标注的主观差异性,确保语义分割边界的精确性。
常用场景
经典使用场景
在计算机视觉领域,NYUv2数据集作为室内场景理解的重要基准,其经典应用聚焦于多模态任务的联合学习。通过提供精确对齐的RGB图像、深度图及语义分割标注,该数据集支持深度估计、语义分割和实例分割等核心任务的协同训练。研究者常利用其丰富的室内环境样本,开发能够同时解析场景几何结构与语义信息的统一模型,推动视觉系统在复杂室内环境中的感知能力迈向新高度。
衍生相关工作
该数据集催生了众多具有影响力的衍生研究,例如基于多任务学习的端到端场景解析框架、结合深度信息的语义分割网络优化等经典工作。许多研究通过挖掘RGB与深度数据的互补特性,提出了跨模态特征融合的新型架构。这些成果不仅推动了Eigen等人提出的深度预测模型发展,更促进了以NASNet为代表的自动化网络搜索技术在室内场景理解中的创新应用。
数据集最近研究
最新研究方向
在室内场景理解领域,NYUv2数据集持续推动着多模态融合学习的前沿探索。当前研究聚焦于通过跨模态注意力机制实现RGB图像与深度信息的协同建模,显著提升了语义分割与实例分割在复杂室内环境中的边界精度。随着视觉Transformer架构的普及,该数据集已成为验证三维几何特征与纹理特征互补性的重要基准,尤其在应对遮挡场景和光照变异方面展现出突破性进展。近期研究进一步探索了自监督范式在深度补全任务中的应用,通过构建跨视图一致性约束,有效缓解了传统方法对密集标注数据的依赖,为机器人视觉导航系统的实景适应能力提供了关键支撑。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作