five

MessyKitchens

收藏
arXiv2026-03-18 更新2026-03-19 收录
下载链接:
https://messykitchens.github.io/
下载链接
链接失效反馈
官方服务:
资源简介:
MessyKitchens是由穆罕默德·本·扎耶德人工智能大学构建的3D场景重建基准数据集,包含100个真实厨房场景的高精度物体级标注。该数据集通过专业3D扫描仪采集了130个厨房物品的几何形状、位姿及接触关系数据,并额外提供1,800个合成场景用于训练。数据采集采用透明亚克力平台双视角扫描方案,实现了毫米级精度(点云误差<0.05mm),特别关注物体间的物理接触合理性。该数据集主要服务于计算机视觉领域的3D场景理解、机器人操作模拟等需要物理真实性的应用场景。
提供机构:
穆罕默德·本·扎耶德人工智能大学
创建时间:
2026-03-18
原始信息汇总

MessyKitchens: Contact-rich Object-level 3D Scene Reconstruction 数据集概述

数据集基本信息

  • 数据集名称: MessyKitchens
  • 核心内容: 一个新的基准数据集,专注于杂乱、接触丰富的真实世界场景,提供高保真度的物体级三维地面真值。
  • 主要目标: 推进物体级场景重建,特别是在物理上合理的接触和配置方面。

数据集构成与规模

  • 真实场景数据:
    • 包含 100个 真实世界场景。
    • 场景环境为 杂乱环境
    • 涉及 130个 厨房用具对象,使用 Einstar Vega 3D 扫描仪进行高精度扫描。
    • 对象在透明亚克力表面上从上方和下方扫描,以获得完整的几何形状。
  • 场景难度分级: 组装场景分为三个难度级别:
    • 简单: 4个对象,最小接触。
    • 中等: 6个对象,堆叠配置。
    • 困难: 8个对象,嵌套和最大接触。
  • 合成数据 (MessyKitchens-Synthetic):
    • 包含 1.8k 个接触丰富的场景。
    • 渲染了 10.8k 张图像(每个难度级别600个场景,每个场景6个视图)。
    • 使用 GSO 资产,并通过 Blender Cycles 渲染以实现照片级真实感。

数据质量与关键技术指标

  • 注册精度:
    • 采用法线感知的注册流程。
    • 平均深度误差为 1.62 mm
    • 中值误差为 0.91 mm
    • 相比次优基准,性能提升 49.7%
  • 物理一致性:
    • 在基准测试中实现了最佳的接触与穿透比率 (0.14)。
    • 证明了物理上真实的接触。
  • 注册方法对比:
    • 仅使用距离: 平均误差 2.89 mm。
    • 距离+法线(本方法): 平均误差 1.62 mm
    • 手动方法: 平均误差 4.69 mm。

相关方法与贡献

  • Multi-Object Decoder (MOD):
    • 扩展自 SAM 3D 方法,用于联合物体级场景重建。
    • 通过强制执行场景级几何一致性来优化姿态和尺度。
    • 能够正确重建处于接触状态的对象。

应用与评估

  • 应用领域: 数字艺术、工业检测、遗产保护、机器人学习和模拟,特别是机器人操作和动画。
  • 评估表现: 在 MessyKitchens、GraspNet-1B 和 HouseCat6D 数据集上的广泛实验表明,该方法显著优于现有技术,并具有较强的分布外泛化能力。

公开信息

  • 论文状态: Coming Soon
  • 代码状态: Coming Soon
  • 项目网站: https://messykitchens.github.io/
  • 公开内容: 新的基准、代码和预训练模型将在项目网站上公开提供。
搜集汇总
数据集介绍
main_image_url
构建方式
在三维场景重建领域,高质量数据集的构建对推动算法发展至关重要。MessyKitchens数据集的构建采用了系统化的采集与注册流程,首先利用Einstar Vega三维扫描仪对130个厨房物品进行高精度扫描,通过透明亚克力平台和双面反射标记实现多视角扫描的无缝对齐。随后,研究人员设计了三个难度等级的真实场景:简单场景包含4个分离物体,中等场景引入6个物体并增加堆叠接触,困难场景则扩展至8个物体并包含嵌套结构。每个场景均经过精细扫描,并通过两阶段自动注册流程——先基于距离优化,再结合法向量对齐——将物体模型精准配准到场景网格中,最终生成包含100个真实场景的高保真三维真值数据。
使用方法
该数据集主要服务于物体级三维场景重建任务的训练与评估。研究者可基于其提供的真实场景RGB图像及对应的三维真值(包括物体形状、姿态和接触信息),开发或验证单目重建算法。配套的合成数据集MessyKitchens-synthetic可用于模型预训练,其通过Blender物理引擎生成的接触丰富场景与真实数据保持结构一致性。在评估层面,数据集支持通过交并比和倒角距离等指标量化重建精度,同时其精确的接触标注使得物理合理性分析成为可能。多物体解码器等先进方法已在该数据集上展示了卓越性能,证明了其在推动物理一致三维视觉研究方面的基准价值。
背景与挑战
背景概述
在计算机视觉领域,三维场景重建一直是推动数字艺术、工业检测、机器人操作等应用发展的核心技术。随着神经架构和大规模数据的进步,单目深度估计已取得显著进展,然而将复杂场景分解为独立三维物体的重建任务仍面临巨大挑战。MessyKitchens数据集由穆罕默德·本·扎耶德人工智能大学的研究团队于2026年提出,旨在解决杂乱环境中物体级三维重建的难题。该数据集包含100个真实厨房场景,涵盖130个高精度扫描的物体,提供了物体形状、姿态及接触关系的精确标注。其核心研究问题聚焦于实现物理上合理的三维场景重建,确保物体遵循非穿透和真实接触的物理原则,为机器人操控和动画仿真等任务奠定了高质量基准。
当前挑战
MessyKitchens数据集致力于应对物体级三维场景重建中的多重挑战。在领域问题层面,该数据集旨在解决复杂场景中物体形状多样、频繁遮挡及物体关系错综所带来的重建困难,特别是如何从单目图像中实现物理上合理的物体分解与重建。构建过程中的挑战主要体现在数据采集与标注的复杂性上:高保真三维扫描需克服物体薄壁结构导致的注册歧义,为此团队设计了基于距离与法向量的两阶段优化流程;同时,确保接触区域的精确标注需避免物体间非真实穿透,这要求精细的物理模拟与严格的几何验证。这些挑战共同推动了三维重建基准向更高物理一致性的演进。
常用场景
经典使用场景
在三维计算机视觉领域,MessyKitchens数据集为单目图像中的物体级三维场景重建提供了基准测试平台。该数据集聚焦于厨房环境中的杂乱场景,通过高保真度的物体形状、姿态及精确接触关系标注,为研究复杂交互下的三维重建算法提供了关键支撑。其经典应用场景包括评估多物体联合重建方法的几何精度与物理合理性,尤其在处理遮挡频繁、物体关系错综的真实世界场景时,该数据集能够有效检验模型对物体接触、穿透等物理一致性的建模能力。
解决学术问题
MessyKitchens数据集主要针对物体级三维场景重建中的若干核心学术挑战。其一,它解决了现有数据集中注册精度不足、物体间穿透严重的问题,通过高精度扫描与法线感知的配准流程,提供了几何精确且物理合理的标注数据。其二,该数据集推动了从单物体重建到多物体联合重建的范式演进,使得模型能够学习物体间的空间依赖关系,从而生成全局一致的三维布局。其三,它为接触推理与物理仿真等下游任务提供了可靠基准,促进了三维视觉与机器人学、动画等领域的交叉研究。
实际应用
在实际应用层面,MessyKitchens数据集为机器人操作、虚拟现实与三维内容创作等领域提供了关键技术支撑。在机器人领域,基于该数据集训练的模型能够生成物理可信的场景重建,辅助机械臂在杂乱环境中进行抓取与操纵规划。在虚拟现实与动画制作中,其高保真的物体接触标注可用于生成自然逼真的物体交互动画,提升沉浸体验。此外,该数据集还可用于工业检测与文化遗产数字化,实现对复杂场景中个体物体的精确三维数字化存档。
数据集最近研究
最新研究方向
在单目三维场景重建领域,MessyKitchens数据集的推出标志着对物理一致性对象级重建的前沿探索。该数据集聚焦于杂乱厨房环境中的接触丰富场景,通过高保真对象级三维真值(包括精确形状、姿态及接触关系)为算法训练与评估设立了新基准。当前研究热点集中于利用多对象解码器(MOD)等架构,实现联合对象重建以捕捉场景级上下文约束,从而提升物理合理性,减少对象穿透现象。这一进展对机器人操作、三维动画等下游应用具有深远意义,推动了计算机视觉向更逼真、可交互的三维场景理解迈进。
相关研究论文
  • 1
    MessyKitchens: Contact-rich object-level 3D scene reconstruction穆罕默德·本·扎耶德人工智能大学 · 2026年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作