InHabitants

Name: InHabitants
Creator: 蒂宾根大学·人工智能中心; 博世人工智能中心; Zalando SE; 马克斯·普朗克信息学研究所
Published: 2026-04-22 00:53:18
License: 暂无描述

arXiv2026-04-22 更新2026-04-23 收录

下载链接：

https://virtualhumans.mpi-inf.mpg.de/inhabit/

下载链接

链接失效反馈

官方服务：

资源简介：

InHabitants是由蒂宾根大学人工智能中心等机构联合创建的大规模3D人-场景交互数据集，包含约78,000个样本，覆盖800个建筑级场景。该数据集通过创新的渲染-生成-提升流程自动生成，整合了3D场景几何、SMPL-X人体模型和RGB图像，实现了场景感知的多样化人体交互合成。数据来源于Habitat-Matterport3D数据集，经过视觉语言模型和图像编辑模型的联合处理，最终优化为物理合理的3D人体姿态。该数据集旨在解决3D场景理解中真实人-环境交互数据稀缺的问题，可广泛应用于机器人导航、虚拟现实和计算机视觉等领域。

InHabitants is a large-scale 3D human-scene interaction dataset jointly created by the AI Center of the University of Tübingen and other institutions. It contains approximately 78,000 samples covering 800 building-level scenes. The dataset is automatically generated through an innovative render-generate-enhance pipeline, which integrates 3D scene geometry, SMPL-X human body models and RGB images to realize scene-aware diverse human-scene interaction synthesis. Derived from the Habitat-Matterport3D dataset, the dataset is jointly processed by vision-language models and image editing models, and finally optimized into physically plausible 3D human poses. This dataset aims to address the scarcity of real human-environment interaction data in 3D scene understanding, and can be widely applied to fields such as robot navigation, virtual reality and computer vision.

提供机构：

蒂宾根大学·人工智能中心; 博世人工智能中心; Zalando SE; 马克斯·普朗克信息学研究所

创建时间：

2026-04-22

原始信息汇总

InHabit数据集概述

数据集名称

InHabit: Leveraging Image Foundation Models for Scalable 3D Human Placement

作者与机构

作者：Nikita Kister, Pradyumna YM, Istvan Sarandi, Jiayi Wang, Anna Khoreva, Gerard Pons-Moll
机构：University of Tübingen, Tübingen AI Center, Bosch Center of AI, Zalando SE, Max Planck Institute for Informatics, Saarland Informatics Campus

核心方法

遵循渲染-生成-提升原则，实现3D场景中交互式人类的自动、可扩展生成。
给定渲染的3D场景，通过视觉语言模型提出上下文有意义的动作，图像编辑模型插入人类，优化过程将编辑结果提升为与场景几何对齐的物理合理SMPL-X人体。

数据集内容

规模：78K样本，覆盖约800个建筑级场景。
数据类型：包含完整的3D几何、SMPL-X人体模型和RGB图像。
应用场景：用于训练具身智能体理解3D场景中的人类交互。

应用效果

增强标准训练数据后，可改进基于RGB的3D人-场景重建和接触估计。
在感知用户研究中，78%的情况下优于现有技术。

数据集地址

https://virtualhumans.mpi-inf.mpg.de/inhabit/

搜集汇总

数据集介绍

构建方式

在三维场景理解领域，构建大规模、语义丰富的人-场景交互数据面临显著挑战。InHabitants数据集通过创新的“渲染-生成-提升”流程实现自动化构建：首先从Habitat-Matterport 3D等现有三维场景中采样并渲染二维视图；随后，利用视觉语言模型分析场景上下文，提出符合语义的交互建议，并通过图像编辑模型将执行这些动作的人类自然合成到渲染图像中；最后，基于优化方法将二维人体提升至三维空间，重建为与场景几何对齐的SMPL-X人体网格，并通过后处理过滤确保物理合理性。

特点

该数据集的核心特点在于其规模与语义深度的结合。它包含约78,000个样本，覆盖近800个建筑尺度的多样化室内场景，提供了完整的场景几何、SMPL-X人体网格及RGB图像。与依赖简单几何启发式或有限动作捕捉的现有数据不同，InHabitants通过二维基础模型隐式编码的常识知识，生成了上下文感知、多样化的交互行为，如烹饪、倚靠、阅读等，同时确保了单人与多人互动的物理合理性。其数据在感知研究中被78%的参与者认为优于现有方法。

使用方法

InHabitants数据集主要服务于具身智能与三维视觉的研究与应用。研究者可将其用于训练和评估人-场景交互理解模型，例如三维人体-场景重建、接触估计等任务。具体而言，该数据可作为补充训练集，增强现有模型的泛化能力与语义理解；也可作为基准测试集，用于定量评估生成交互的物理与语义质量。使用前需处理提供的场景网格、人体参数及图像数据，并参考论文中的实验设置进行模型适配与评估。

背景与挑战

背景概述

在具身人工智能与三维场景理解领域，如何生成大规模、语义丰富的人类-场景交互数据一直是一个核心挑战。InHabitants数据集由德国图宾根人工智能中心、马克斯·普朗克信息学研究所等机构的研究团队于2026年提出，旨在解决现有数据稀缺且语义信息不足的问题。该数据集通过创新的“渲染-生成-提升”流程，将二维基础模型中蕴含的常识性交互知识迁移至三维空间，在Habitat-Matterport 3D的约800个建筑尺度场景中生成了超过7.8万个包含完整几何、SMPL-X人体模型与RGB图像的样本。其核心研究问题聚焦于如何自动化、可扩展地合成符合场景上下文的逼真人类行为，为三维人体重建、接触估计等下游任务提供了关键数据支撑，显著推动了具身智能在人类中心视角下的场景理解能力。

当前挑战

InHabitants数据集致力于解决三维人类-场景交互生成中的两大挑战。在领域问题层面，传统方法依赖几何启发式规则或有限的动作捕捉数据，难以生成既物理合理又语义贴合的交互行为；该数据集通过利用二维基础模型的隐式知识，有效应对了语义合理性与行为多样性的生成难题。在构建过程中，研究团队面临了从二维图像到三维几何的精准提升挑战，包括确保人体姿态与场景几何的物理对齐、避免穿透现象，并需通过后重建过滤机制剔除不符合物理约束的样本，以保障生成数据的质量与一致性。

常用场景

经典使用场景

在具身人工智能与三维场景理解的研究中，InHabitants数据集为训练模型理解人类与环境交互提供了关键支撑。其最经典的使用场景在于生成大规模、语义丰富的三维人-场景交互数据，通过渲染-生成-提升的自动化流程，将二维基础模型中的常识知识迁移至三维领域。该数据集能够模拟人类在多样化室内环境中的自然行为，如烹饪、倚靠、阅读等，为缺乏真实交互数据的学术研究填补了空白。

衍生相关工作

基于InHabitants数据集，研究者们衍生出一系列经典工作，进一步拓展了三维人-场景交互的边界。例如，Human3R与GRAFT等重建方法通过在该数据集上训练，显著提升了在PROX与RICH基准测试中的性能。此外，该数据集的生成范式启发了后续研究，如利用扩散模型进行动态交互合成，或将二维生成能力扩展至视频与动态场景，持续推动该领域的技术演进。

数据集最近研究