Implicit-Scale 3D Reconstruction from Monocular Multi-Food Images

Name: Implicit-Scale 3D Reconstruction from Monocular Multi-Food Images
Creator: 滑铁卢大学; 普渡大学; 印第安纳大学
Published: 2026-02-13 23:52:39
License: 暂无描述

arXiv2026-02-13 更新2026-02-17 收录

下载链接：

https://sites.google.com/view/cvpr-metafood-2025/challenge-1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由普渡大学等机构联合构建，旨在通过单目图像实现多食物场景的隐式尺度三维重建。包含10个精心设计的餐饮场景，共24个三维物体，数据来源于高精度三维扫描仪采集的MetaFood3D对象集。通过移除显式物理参照物，要求算法从餐具等上下文信息推断尺度，真实模拟了现实餐饮场景的遮挡和复杂空间布局。主要应用于膳食评估领域，为解决食物体积估算中的几何推理和尺度模糊问题提供基准。

This dataset was co-developed by Purdue University and other institutions, aiming to accomplish implicit-scale 3D reconstruction of multi-food scenes using monocular images. It contains 10 meticulously designed dining scenarios with a total of 24 3D objects, with data sourced from the MetaFood3D object collection acquired via high-precision 3D scanners. By eliminating explicit physical reference objects, it mandates algorithms to infer scale from contextual cues such as tableware, and realistically mimics the occlusion and complex spatial layouts of real-world dining scenarios. Primarily applied in the field of dietary assessment, this dataset serves as a benchmark for addressing geometric reasoning and scale ambiguity problems in food volume estimation.

提供机构：

滑铁卢大学; 普渡大学; 印第安纳大学

创建时间：

2026-02-13

搜集汇总

数据集介绍

构建方式

在计算机视觉领域，单目三维重建技术为食品体积估计提供了几何基础，然而现实餐饮场景中的尺度模糊性构成了显著挑战。Implicit-Scale 3D Reconstruction from Monocular Multi-Food Images 数据集的构建旨在模拟真实就餐环境，通过精心策划的10个多食物场景，涵盖24个三维物体，包括多种食物、餐具和餐盘。所有物体均采用高精度三维扫描仪按照MetaFood3D数据采集流程获取，确保几何形状的真实性。数据集刻意移除了显式的物理尺度参考和度量标注，转而依赖餐具和餐盘等上下文物体作为隐含的尺度线索，要求算法从先验知识和场景上下文中推断尺度，从而将食物分量估计重构为一个在单目尺度模糊性下的物理信息三维重建问题。

特点

该数据集的核心特征在于其高度仿真的复杂性和对隐含尺度推理的强调。场景设计模拟了真实世界的就餐情境，包含多种几何形状各异的食物物体，这些物体之间经常存在遮挡、重叠以及复杂的空间排列，极大地增加了重建难度。数据集摒弃了传统的显式尺度标注，迫使模型必须从餐具、餐盘等常见物体的先验尺寸中学习并推断整体场景的物理尺度。这种设置不仅评估了模型的三维几何重建能力，更重点考察了其在缺乏直接度量信息下的尺度推理鲁棒性，为推进基于几何的、可泛化至真实场景的食物分析算法提供了关键的测试基准。

使用方法

该数据集主要作为评估单目隐含尺度三维重建算法的基准。研究者通常首先利用提供的单张RGB图像，通过图像分割技术识别出场景中的各个食物及上下文物体。随后，采用如Hunyuan3D等单目图像到三维的重建骨干网络，为每个物体生成初始的三维网格。关键的尺度估计步骤则通过多种策略实现：例如基于像素空间的启发式缩放，通过检测餐盘并假设其物理尺寸来计算缩放因子；或基于场景级几何先验的缩放，利用已知尺寸的餐具网格计算全局尺度；亦或是采用度量深度驱动的多阶段缩放，结合单目深度估计与网络爬取的先验尺寸数据进行局部对齐与全局优化。最终，通过将重建并缩放后的三维网格与高精度扫描得到的地面真值进行对比，以平均绝对百分比误差和L1倒角距离等指标综合评价模型的体积估计精度与几何重建质量。

背景与挑战

背景概述

在计算机视觉领域，三维物体重建已成为一个活跃的研究方向，其发展受到多视图几何、神经渲染及图像到三维生成模型进步的驱动。然而，在现实世界的饮食评估场景中，现有方法面临显著局限。基于单图像分析或外观推断的传统饮食评估方法缺乏显式的几何推理能力，且对尺度模糊性敏感。为应对这一挑战，由滑铁卢大学、普渡大学和印第安纳大学的研究团队于2026年共同构建了Implicit-Scale 3D Reconstruction from Monocular Multi-Food Images数据集。该数据集将食物分量估计重新定义为单目观测下的隐式尺度三维重建问题，旨在推动基于几何的食物体积估计在真实用餐场景中的应用。数据集包含精心策划的多食物场景，强调物体几何多样性、频繁遮挡和复杂空间排列，反映了真实饮食环境的复杂性，并作为MetaFood 2025研讨会的挑战基准，促进了相关算法的创新与评估。

当前挑战

该数据集旨在解决的核心领域问题是单目多食物场景下的三维重建与体积估计，其挑战主要体现在两个方面。在领域问题层面，算法需克服单目视觉固有的尺度模糊性，在缺乏显式物理参考和度量标注的条件下，仅依靠餐具等上下文物体作为隐式线索来推断真实尺度。同时，多食物场景中频繁的遮挡、重叠几何结构、阴影以及复杂的空间布局，使得重建过程尤为困难。食物本身的高类内变异性，即同一菜品在形状、大小和布局上的多样性，进一步限制了基于固定模板或规范形状的方法的有效性。在构建过程中，挑战在于如何设计能够反映真实用餐复杂性的场景，确保数据既包含多样的食物组合与几何形态，又能通过包含餐具等元素提供足够的隐式尺度推理线索，同时维持高精度的三维扫描质量以生成可靠的基准真值。

常用场景

经典使用场景

在计算机视觉与营养学交叉领域，单目图像中的食物体积估计长期面临尺度模糊与几何推理缺失的挑战。Implicit-Scale 3D Reconstruction from Monocular Multi-Food Images数据集通过提供包含餐具与多食物组合的真实用餐场景图像，构建了一个评估隐式尺度三维重建性能的基准平台。该数据集最经典的使用场景在于推动基于几何推理的食物体积估计算法发展，研究者可利用其多食物遮挡、复杂空间布局及缺乏显式尺度参照的特点，开发能够从上下文线索中推断物理尺度的单目重建模型。

解决学术问题

该数据集主要解决了单目视觉中三维重建的尺度模糊问题，以及传统食物体积估计方法依赖外观特征而缺乏几何一致性的局限。通过移除显式度量标注并引入餐具等上下文参照物，它迫使算法从隐式先验知识中推理尺度，从而将食物份量估计重构为一个物理信息驱动的三维重建任务。这不仅提升了体积估计的准确性，还增强了模型对于不同食物类别、摆放方式及视角变化的鲁棒性，为膳食评估研究提供了更为严谨的几何基础。

衍生相关工作

该数据集的推出催生了一系列围绕隐式尺度重建的经典工作。在MetaFood 2025 Workshop挑战赛中，参研团队提出了多种创新方法，如基于像素空间启发式缩放、场景级几何先验缩放以及度量深度驱动的多阶段缩放等代表性方案。其中，优胜方案Monobite通过联合重建、度量深度估计与网络爬取先验的多阶段优化，显著提升了重建精度与尺度一致性。这些工作共同推动了单目多物体三维重建领域向更真实、更鲁棒的方向演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集