InHabitants
收藏arXiv2026-04-22 更新2026-04-23 收录
下载链接:
https://virtualhumans.mpi-inf.mpg.de/inhabit/
下载链接
链接失效反馈官方服务:
资源简介:
InHabitants是由蒂宾根大学人工智能中心等机构联合创建的大规模3D人-场景交互数据集,包含约78,000个样本,覆盖800个建筑级场景。该数据集通过创新的渲染-生成-提升流程自动生成,整合了3D场景几何、SMPL-X人体模型和RGB图像,实现了场景感知的多样化人体交互合成。数据来源于Habitat-Matterport3D数据集,经过视觉语言模型和图像编辑模型的联合处理,最终优化为物理合理的3D人体姿态。该数据集旨在解决3D场景理解中真实人-环境交互数据稀缺的问题,可广泛应用于机器人导航、虚拟现实和计算机视觉等领域。
InHabitants is a large-scale 3D human-scene interaction dataset jointly created by the AI Center of the University of Tübingen and other institutions. It contains approximately 78,000 samples covering 800 building-level scenes. The dataset is automatically generated through an innovative render-generate-enhance pipeline, which integrates 3D scene geometry, SMPL-X human body models and RGB images to realize scene-aware diverse human-scene interaction synthesis. Derived from the Habitat-Matterport3D dataset, the dataset is jointly processed by vision-language models and image editing models, and finally optimized into physically plausible 3D human poses. This dataset aims to address the scarcity of real human-environment interaction data in 3D scene understanding, and can be widely applied to fields such as robot navigation, virtual reality and computer vision.
提供机构:
蒂宾根大学·人工智能中心; 博世人工智能中心; Zalando SE; 马克斯·普朗克信息学研究所
创建时间:
2026-04-22
原始信息汇总
InHabit数据集概述
数据集名称
InHabit: Leveraging Image Foundation Models for Scalable 3D Human Placement
作者与机构
- 作者:Nikita Kister, Pradyumna YM, Istvan Sarandi, Jiayi Wang, Anna Khoreva, Gerard Pons-Moll
- 机构:University of Tübingen, Tübingen AI Center, Bosch Center of AI, Zalando SE, Max Planck Institute for Informatics, Saarland Informatics Campus
核心方法
- 遵循渲染-生成-提升原则,实现3D场景中交互式人类的自动、可扩展生成。
- 给定渲染的3D场景,通过视觉语言模型提出上下文有意义的动作,图像编辑模型插入人类,优化过程将编辑结果提升为与场景几何对齐的物理合理SMPL-X人体。
数据集内容
- 规模:78K样本,覆盖约800个建筑级场景。
- 数据类型:包含完整的3D几何、SMPL-X人体模型和RGB图像。
- 应用场景:用于训练具身智能体理解3D场景中的人类交互。
应用效果
- 增强标准训练数据后,可改进基于RGB的3D人-场景重建和接触估计。
- 在感知用户研究中,78%的情况下优于现有技术。
相关资源
-
论文/预印本:提供链接(原文中标记为"Paper __ Preprint")。
-
代码与数据:提供链接(原文中标记为"Code Data")。
-
BibTeX引用:
@misc{inhabit2026, author = {Kister, Nikita and YM, Pradyumna and S{a}r{a}ndi, Istv{a}n and Wang, Jiayi and Khoreva, Anna and Pons-Moll, Gerard}, title = {InHabit: Leveraging Image Foundation Models for Scalable 3D Human Placement}, year = {2026}, howpublished = {url{https://virtualhumans.mpi-inf.mpg.de/inhabit/}}, }
数据集地址
https://virtualhumans.mpi-inf.mpg.de/inhabit/
搜集汇总
数据集介绍

构建方式
在三维场景理解领域,构建大规模、语义丰富的人-场景交互数据面临显著挑战。InHabitants数据集通过创新的“渲染-生成-提升”流程实现自动化构建:首先从Habitat-Matterport 3D等现有三维场景中采样并渲染二维视图;随后,利用视觉语言模型分析场景上下文,提出符合语义的交互建议,并通过图像编辑模型将执行这些动作的人类自然合成到渲染图像中;最后,基于优化方法将二维人体提升至三维空间,重建为与场景几何对齐的SMPL-X人体网格,并通过后处理过滤确保物理合理性。
特点
该数据集的核心特点在于其规模与语义深度的结合。它包含约78,000个样本,覆盖近800个建筑尺度的多样化室内场景,提供了完整的场景几何、SMPL-X人体网格及RGB图像。与依赖简单几何启发式或有限动作捕捉的现有数据不同,InHabitants通过二维基础模型隐式编码的常识知识,生成了上下文感知、多样化的交互行为,如烹饪、倚靠、阅读等,同时确保了单人与多人互动的物理合理性。其数据在感知研究中被78%的参与者认为优于现有方法。
使用方法
InHabitants数据集主要服务于具身智能与三维视觉的研究与应用。研究者可将其用于训练和评估人-场景交互理解模型,例如三维人体-场景重建、接触估计等任务。具体而言,该数据可作为补充训练集,增强现有模型的泛化能力与语义理解;也可作为基准测试集,用于定量评估生成交互的物理与语义质量。使用前需处理提供的场景网格、人体参数及图像数据,并参考论文中的实验设置进行模型适配与评估。
背景与挑战
背景概述
在具身人工智能与三维场景理解领域,如何生成大规模、语义丰富的人类-场景交互数据一直是一个核心挑战。InHabitants数据集由德国图宾根人工智能中心、马克斯·普朗克信息学研究所等机构的研究团队于2026年提出,旨在解决现有数据稀缺且语义信息不足的问题。该数据集通过创新的“渲染-生成-提升”流程,将二维基础模型中蕴含的常识性交互知识迁移至三维空间,在Habitat-Matterport 3D的约800个建筑尺度场景中生成了超过7.8万个包含完整几何、SMPL-X人体模型与RGB图像的样本。其核心研究问题聚焦于如何自动化、可扩展地合成符合场景上下文的逼真人类行为,为三维人体重建、接触估计等下游任务提供了关键数据支撑,显著推动了具身智能在人类中心视角下的场景理解能力。
当前挑战
InHabitants数据集致力于解决三维人类-场景交互生成中的两大挑战。在领域问题层面,传统方法依赖几何启发式规则或有限的动作捕捉数据,难以生成既物理合理又语义贴合的交互行为;该数据集通过利用二维基础模型的隐式知识,有效应对了语义合理性与行为多样性的生成难题。在构建过程中,研究团队面临了从二维图像到三维几何的精准提升挑战,包括确保人体姿态与场景几何的物理对齐、避免穿透现象,并需通过后重建过滤机制剔除不符合物理约束的样本,以保障生成数据的质量与一致性。
常用场景
经典使用场景
在具身人工智能与三维场景理解的研究中,InHabitants数据集为训练模型理解人类与环境交互提供了关键支撑。其最经典的使用场景在于生成大规模、语义丰富的三维人-场景交互数据,通过渲染-生成-提升的自动化流程,将二维基础模型中的常识知识迁移至三维领域。该数据集能够模拟人类在多样化室内环境中的自然行为,如烹饪、倚靠、阅读等,为缺乏真实交互数据的学术研究填补了空白。
衍生相关工作
基于InHabitants数据集,研究者们衍生出一系列经典工作,进一步拓展了三维人-场景交互的边界。例如,Human3R与GRAFT等重建方法通过在该数据集上训练,显著提升了在PROX与RICH基准测试中的性能。此外,该数据集的生成范式启发了后续研究,如利用扩散模型进行动态交互合成,或将二维生成能力扩展至视频与动态场景,持续推动该领域的技术演进。
数据集最近研究
最新研究方向
在三维场景理解与具身智能领域,InHabitants数据集的前沿研究聚焦于利用二维基础模型的隐式知识生成大规模、语义丰富的三维人-场景交互数据。该数据集通过“渲染-生成-提升”的自动化流程,将视觉语言模型对场景功能的推理与图像编辑模型的视觉合成能力相结合,实现了在约800个建筑尺度场景中生成超过7.8万个包含完整几何、SMPL-X人体模型和RGB图像的交互样本。当前研究热点在于利用此类合成数据增强下游任务的性能,例如提升接触估计和三维人-场景重建模型的准确性,同时探索如何将二维互联网规模数据中的常识交互知识高效迁移至三维空间,以解决真实运动捕捉数据稀缺且成本高昂的瓶颈。这一方向不仅推动了具身智能在复杂环境中的理解与交互能力,也为构建大规模、多样化的仿真训练环境提供了可扩展的解决方案,对机器人学、虚拟现实和自动驾驶等领域的进步具有深远意义。
相关研究论文
- 1InHabit: Leveraging Image Foundation Models for Scalable 3D Human Placement蒂宾根大学·人工智能中心; 博世人工智能中心; Zalando SE; 马克斯·普朗克信息学研究所 · 2026年
以上内容由遇见数据集搜集并总结生成



