HOVA-500K
收藏github2025-06-06 更新2025-06-07 收录
下载链接:
https://github.com/TeleeMa/GLOVER
下载链接
链接失效反馈官方服务:
资源简介:
HOVA-500K是一个大规模的可操作性标注数据集,由现有的人类视频和图像构建而成。该数据集包含50万张精心标注的图像,涵盖1,726个对象类别和675个动作类别,创建了一个全面的人类-对象交互分类体系。
HOVA-500K is a large-scale operationally annotated dataset built from existing human-centric videos and images. It comprises 500,000 meticulously annotated images, spanning 1,726 object categories and 675 action categories, and establishes a comprehensive taxonomy for human-object interaction.
创建时间:
2025-05-21
原始信息汇总
GLOVER++ 数据集概述
数据集基本信息
- 名称: HOVA-500K
- 规模: 500,000张标注图像
- 覆盖范围:
- 1,726个物体类别
- 675个动作类别
- 数据来源: 现有人类视频和图像
数据集结构
├── HOVA-500K │ ├── 3doi │ │ ├── GT_gaussian │ │ └── images │ ├── Ego4D │ │ ├── GT_gaussian │ │ └── frames │ ├── HANDAL │ │ └── annotations │ │ | ├── GT_gaussian_train │ │ | └── GT_gaussian_test | │ └── images │ └── epic-100
下载与合并
- 下载地址: https://huggingface.co/datasets/JiaaZ/HOVA-500K/tree/main
- 合并命令: bash cat HANDAL/part_* > HANDAL.tar.gz cat Ego4D/part_* > Ego4D.tar.gz cat epic-100/part_* > epic-100.tar.gz
应用场景
- 零样本操作
- 多任务模仿学习
- 长时程操作
- 双手操作
相关论文
- GLOVER++论文: https://arxiv.org/pdf/2505.11865
- GLOVER论文: https://arxiv.org/pdf/2411.12286v2
引用
bibtex @article{ma2025glover++, title={GLOVER++: Unleashing the Potential of Affordance Learning from Human Behaviors for Robotic Manipulation}, author={Ma, Teli and Zheng, Jia and Wang, Zifan and Gao, Ziyao and Zhou, Jiaming and Liang, Junwei}, journal={arXiv preprint arXiv:2505.11865}, year={2025} }
搜集汇总
数据集介绍

构建方式
在机器人操作领域,HOVA-500K数据集的构建体现了对人类行为可操作性知识的深度挖掘。研究团队从现有的人类视频和图像资源中精选素材,通过系统化标注流程,构建了包含50万张精细标注图像的大规模数据集。该数据集覆盖1,726种物体类别和675种动作类别,形成了完整的人机交互分类体系。数据来源整合了多个知名数据集,采用高斯热力图标注方式对交互区域进行精确标注,为后续的仿生学习奠定了数据基础。
使用方法
使用HOVA-500K数据集需要遵循特定的技术流程。用户需通过分段下载和合并的方式获取完整数据集,并按指定目录结构组织数据文件。数据集支持多种应用场景,包括零样本操作、多任务模仿学习等复杂任务。配套提供的训练脚本支持基础版和增强版两种训练模式,用户可根据需求配置模型路径和训练参数。评估阶段需指定测试数据集路径和模型架构,而推理过程则支持通过命令行参数指定目标物体和操作类型。数据集使用过程中需注意保持标注文件与训练代码的目录对应关系,以确保模型能够正确读取标注信息。
背景与挑战
背景概述
HOVA-500K数据集由香港科技大学(广州)的研究团队于2025年发布,旨在通过大规模人类行为视频挖掘可操作的物体功能知识(affordance),为机器人操作任务提供显式表征。该数据集包含50万张精细标注的图像,涵盖1726种物体类别和675种动作类别,构建了全面的人机交互分类体系。作为GLOVER++项目的核心组成部分,HOVA-500K通过融合多源人类视频数据(如Ego4D、EPIC-100等),推动了从粗粒度到细粒度的功能表征学习,在零样本操作、多任务模仿学习等场景展现出显著优势。
当前挑战
在解决机器人功能认知这一核心问题上,HOVA-500K需应对跨模态关联建模的挑战,包括人类行为视频中的时空动态性与静态功能表征的映射难题。数据集构建过程中,研究团队面临多源异构数据整合的技术瓶颈,需统一来自不同采集设备、视角和标注规范的原始数据。细粒度功能标注的可靠性验证也构成重大挑战,特别是对于675种动作类别与1726种物体组合的语义边界界定。此外,数据规模扩张带来的计算资源需求与标注质量控制之间的平衡,也是实现可扩展功能学习的关键制约因素。
常用场景
经典使用场景
在机器人操作领域,HOVA-500K数据集通过其大规模的人类行为标注数据,为机器人学习精细动作提供了丰富的训练素材。该数据集广泛应用于机器人模仿学习任务,特别是需要理解人类与物体交互的复杂场景。研究人员利用这些数据训练模型,使机器人能够识别和预测人类操作意图,从而执行相应的抓取、放置等动作。
解决学术问题
HOVA-500K数据集解决了机器人操作中动作泛化能力不足的学术难题。通过提供涵盖1726种物体类别和675种动作类别的标注数据,该数据集显著提升了模型在零样本操作和多任务模仿学习中的表现。其全面的交互标注为机器人理解人类行为模式提供了数据基础,推动了动作推理能力的研究进展。
实际应用
在实际应用中,HOVA-500K数据集已被证明能够显著提升工业机器人和服务机器人的操作能力。基于该数据集训练的模型可应用于物流分拣、家庭服务等场景,实现精准的物体抓取和复杂操作。特别是在需要双手协同操作的场景中,数据集提供的丰富标注信息能够有效指导机器人完成长时程任务。
数据集最近研究
最新研究方向
在机器人操作领域,HOVA-500K数据集正推动着基于人类行为学习的可操作感知研究迈向新高度。该数据集通过大规模标注的人类-物体交互图像,为机器人提供了丰富的可操作知识库,使机器能够理解并模仿人类对物体的精细操作行为。当前研究热点集中在如何利用这类数据提升机器人在零样本操作、多任务模仿学习以及长时程双手协同操作等方面的表现。GLOVER++框架的提出,展现了从全局到局部的可操作性表征学习范式,为机器人操作策略的泛化能力设定了新的基准。这一进展不仅为机器人自主操作开辟了新路径,也为跨模态学习与具身智能的融合提供了重要参考。
以上内容由遇见数据集搜集并总结生成



