HOIverse
收藏arXiv2025-06-24 更新2025-06-26 收录
下载链接:
https://mrunmaivp.github.io/hoiverse/
下载链接
链接失效反馈官方服务:
资源简介:
HOIverse数据集是一个合成的场景图数据集,专注于人类与物体交互,包括人类与周围物体之间的准确且密集的关系真实值,以及相应的RGB图像、分割掩码、深度图像和人体关键点。该数据集旨在促进涉及人类的场景理解研究,并为场景图生成和人类-物体交互预测提供可靠的基准。
The HOIverse dataset is a synthetic scene graph dataset focused on human-object interaction. It contains accurate and dense ground-truth relational annotations between humans and their surrounding objects, along with corresponding RGB images, segmentation masks, depth maps, and human keypoints. This dataset aims to advance research on human-centric scene understanding, and provides a reliable benchmark for scene graph generation and human-object interaction prediction.
提供机构:
德国奥格斯堡大学机器学习和计算机视觉实验室
创建时间:
2025-06-24
原始信息汇总
HOIverse: 合成场景图数据集(含人机交互)
数据集概述
- 名称:HOIverse
- 类型:合成场景图数据集
- 核心领域:场景图与人机交互交叉领域
- 主要用途:室内场景理解(含人类活动的场景)
数据集内容
- 包含精确密集的关系标注:
- 人类与周围物体的交互关系
- 参数化关系定义(物体间及人机交互对)
- 配套数据:
- RGB图像
- 分割掩码
- 深度图像
- 人体关键点
技术特点
- 提供无歧义的关系定义
- 支持参数化关系计算
- 包含最先进场景图生成模型的基准测试
研究价值
- 解决当前研究中室内场景理解数据集的不足
- 促进涉及人类活动的场景理解研究
- 支持下游任务开发(如导航、路径规划)
项目维护
- 维护者:mrunmaivp
- GitHub项目地址:https://github.com/mrunmaivp/hoiverse
搜集汇总
数据集介绍

构建方式
HOIverse数据集的构建采用了先进的合成场景生成技术,结合Infinigen框架生成高质量室内场景。通过扩展CoPa-SG的流程,该数据集在3D场景中插入多样化的人类模型,并模拟人类与物体的交互行为。人类模型的姿态和纹理通过SMPL-X和SMPLitex进行优化,确保视觉真实性和多样性。关系标注通过程序化方式生成,避免了人工标注的不一致性,同时引入参数化关系以精确描述空间交互。
特点
HOIverse数据集以其密集且精确的标注著称,涵盖了人类与物体之间的14种交互类型,包括空间关系和动作交互。数据集提供了RGB图像、分割掩码、深度图像和人体关键点等多模态数据。参数化关系的引入使得空间描述更为精确,如距离和角度参数。此外,数据集还包含第一人称视角的渲染图像,进一步丰富了场景理解的维度。
使用方法
HOIverse数据集适用于场景理解和人类-机器人交互研究。研究人员可利用其密集标注训练和评估场景图生成模型,如MotifNet、VCTree和DSFormer。数据集的多模态数据支持多种计算机视觉任务,包括动作识别、空间关系预测和人体姿态估计。参数化关系为模型提供了细粒度的监督信号,有助于提升预测的准确性。
背景与挑战
背景概述
HOIverse数据集由德国奥格斯堡大学机器学习与计算机视觉实验室于2025年提出,旨在解决室内场景理解中人类与物体交互的精细化建模问题。该数据集通过程序化生成方式构建,包含525个合成室内场景,提供RGB图像、分割掩码、深度图及人体关键点等多模态标注数据,并首创了包含'注视'、'指向'等14种参数化关系的场景图标注体系。作为首个融合场景图与人类物体交互的合成数据集,HOIverse通过精确的体素级关系计算避免了传统人工标注的主观性,为服务机器人导航、人机协作等应用提供了包含2200万关系标注的基准数据,显著推动了三维场景理解领域的发展。
当前挑战
HOIverse面临的挑战主要体现在两个方面:在领域问题层面,现有场景图数据集多关注显著物体关系而忽略人类交互的连续性特征,如VCOCO等传统数据集仅标注直接接触的交互,难以支撑'注视方向'等复杂行为推理;在构建技术层面,参数化关系的精确定义需要解决空间关系判定的模糊性问题,例如'附近'关系的距离阈值设定需平衡场景语义与几何约束。此外,大规模人体网格的物理合理布局、多视角渲染的一致性保障,以及第一人称视角与全局场景的标注同步,都对程序化生成管线的鲁棒性提出了极高要求。
常用场景
经典使用场景
HOIverse数据集在计算机视觉领域中被广泛用于场景理解和人机交互研究。其合成的场景图数据和人-物交互标注为研究者提供了丰富的结构化信息,特别适用于室内环境下的视觉场景解析任务。通过精确的空间关系参数化定义,该数据集能够支持复杂的场景理解模型训练,成为评估场景图生成算法性能的重要基准。
解决学术问题
该数据集解决了传统场景图数据中人-物交互标注稀疏且不一致的学术难题。通过程序化生成的密集标注,消除了人工标注的主观偏差,为研究者提供了完整的场景关系描述。其参数化空间关系定义(如距离、角度)突破了二元分类的局限,为细粒度场景理解提供了新的研究范式,显著推动了人机协作领域的算法发展。
衍生相关工作
基于HOIverse的密集标注特性,研究者开发了改进的场景图生成模型DSFormer,在参数化关系预测上取得突破。该数据集还启发了新型人机协作框架ConceptGraphs的研究,其提供的视角相关关系为3D场景理解开辟了新方向。部分工作开始探索将参数化关系迁移至真实场景的域适应方法。
以上内容由遇见数据集搜集并总结生成



