HOVA-500K

github2025-06-06 更新2025-06-07 收录

下载链接：

https://github.com/TeleeMa/GLOVER

下载链接

链接失效反馈

官方服务：

资源简介：

HOVA-500K是一个大规模的可操作性标注数据集，由现有的人类视频和图像构建而成。该数据集包含50万张精心标注的图像，涵盖1,726个对象类别和675个动作类别，创建了一个全面的人类-对象交互分类体系。

HOVA-500K is a large-scale operationally annotated dataset built from existing human-centric videos and images. It comprises 500,000 meticulously annotated images, spanning 1,726 object categories and 675 action categories, and establishes a comprehensive taxonomy for human-object interaction.

创建时间：

2025-05-21

原始信息汇总

GLOVER++ 数据集概述

数据集基本信息

名称: HOVA-500K
规模: 500,000张标注图像
覆盖范围:
- 1,726个物体类别
- 675个动作类别
数据来源: 现有人类视频和图像

数据集结构

├── HOVA-500K │ ├── 3doi │ │ ├── GT_gaussian │ │ └── images │ ├── Ego4D │ │ ├── GT_gaussian │ │ └── frames │ ├── HANDAL │ │ └── annotations │ │ | ├── GT_gaussian_train │ │ | └── GT_gaussian_test | │ └── images │ └── epic-100

下载与合并

下载地址: https://huggingface.co/datasets/JiaaZ/HOVA-500K/tree/main
合并命令: bash cat HANDAL/part_* > HANDAL.tar.gz cat Ego4D/part_* > Ego4D.tar.gz cat epic-100/part_* > epic-100.tar.gz

应用场景

零样本操作
多任务模仿学习
长时程操作
双手操作

引用

bibtex @article{ma2025glover++, title={GLOVER++: Unleashing the Potential of Affordance Learning from Human Behaviors for Robotic Manipulation}, author={Ma, Teli and Zheng, Jia and Wang, Zifan and Gao, Ziyao and Zhou, Jiaming and Liang, Junwei}, journal={arXiv preprint arXiv:2505.11865}, year={2025} }

搜集汇总

数据集介绍

构建方式

在机器人操作领域，HOVA-500K数据集的构建体现了对人类行为可操作性知识的深度挖掘。研究团队从现有的人类视频和图像资源中精选素材，通过系统化标注流程，构建了包含50万张精细标注图像的大规模数据集。该数据集覆盖1,726种物体类别和675种动作类别，形成了完整的人机交互分类体系。数据来源整合了多个知名数据集，采用高斯热力图标注方式对交互区域进行精确标注，为后续的仿生学习奠定了数据基础。

使用方法

使用HOVA-500K数据集需要遵循特定的技术流程。用户需通过分段下载和合并的方式获取完整数据集，并按指定目录结构组织数据文件。数据集支持多种应用场景，包括零样本操作、多任务模仿学习等复杂任务。配套提供的训练脚本支持基础版和增强版两种训练模式，用户可根据需求配置模型路径和训练参数。评估阶段需指定测试数据集路径和模型架构，而推理过程则支持通过命令行参数指定目标物体和操作类型。数据集使用过程中需注意保持标注文件与训练代码的目录对应关系，以确保模型能够正确读取标注信息。

背景与挑战

背景概述

HOVA-500K数据集由香港科技大学（广州）的研究团队于2025年发布，旨在通过大规模人类行为视频挖掘可操作的物体功能知识（affordance），为机器人操作任务提供显式表征。该数据集包含50万张精细标注的图像，涵盖1726种物体类别和675种动作类别，构建了全面的人机交互分类体系。作为GLOVER++项目的核心组成部分，HOVA-500K通过融合多源人类视频数据（如Ego4D、EPIC-100等），推动了从粗粒度到细粒度的功能表征学习，在零样本操作、多任务模仿学习等场景展现出显著优势。

当前挑战

在解决机器人功能认知这一核心问题上，HOVA-500K需应对跨模态关联建模的挑战，包括人类行为视频中的时空动态性与静态功能表征的映射难题。数据集构建过程中，研究团队面临多源异构数据整合的技术瓶颈，需统一来自不同采集设备、视角和标注规范的原始数据。细粒度功能标注的可靠性验证也构成重大挑战，特别是对于675种动作类别与1726种物体组合的语义边界界定。此外，数据规模扩张带来的计算资源需求与标注质量控制之间的平衡，也是实现可扩展功能学习的关键制约因素。

常用场景

经典使用场景

在机器人操作领域，HOVA-500K数据集通过其大规模的人类行为标注数据，为机器人学习精细动作提供了丰富的训练素材。该数据集广泛应用于机器人模仿学习任务，特别是需要理解人类与物体交互的复杂场景。研究人员利用这些数据训练模型，使机器人能够识别和预测人类操作意图，从而执行相应的抓取、放置等动作。

解决学术问题

HOVA-500K数据集解决了机器人操作中动作泛化能力不足的学术难题。通过提供涵盖1726种物体类别和675种动作类别的标注数据，该数据集显著提升了模型在零样本操作和多任务模仿学习中的表现。其全面的交互标注为机器人理解人类行为模式提供了数据基础，推动了动作推理能力的研究进展。

实际应用

在实际应用中，HOVA-500K数据集已被证明能够显著提升工业机器人和服务机器人的操作能力。基于该数据集训练的模型可应用于物流分拣、家庭服务等场景，实现精准的物体抓取和复杂操作。特别是在需要双手协同操作的场景中，数据集提供的丰富标注信息能够有效指导机器人完成长时程任务。

数据集最近研究