HOD

github2025-03-04 更新2025-03-08 收录

下载链接：

https://github.com/OpenRobotLab/EgoHOD

下载链接

链接失效反馈

官方服务：

资源简介：

HOD数据集是一个用于捕捉手和物体之间细微动态的egocentric视频数据集。

The HOD Dataset is an egocentric video dataset dedicated to capturing the fine-grained dynamics between hands and objects.

创建时间：

2025-02-26

原始信息汇总

EgoHOD 数据集概述

数据集简介

EgoHOD是一个专注于第一视角视频中手与物体动态的表征学习的数据集。该数据集通过结合手-物体检测器和大型语言模型生成高质量的描述手-物体动态的叙述。为了捕捉这些细粒度的动态，研究者提出了EgoVideo模型，该模型包含一种轻量级运动适配器，能够有效地利用HOD数据中的手-物体动态。

数据集获取

HOD数据集的注释可以通过Huggingface链接获取。

预训练模型

预训练的EgoVideo模型可以通过此链接下载。

使用说明

安装步骤如下：

git clone https://github.com/OpenRobotLab/EgoHOD.git conda env create -f environment.yml conda activate hod pip install -r requirements.txt
预训练代码可以通过运行以下命令来执行： shell bash ./exps/pretrain.sh
零样本评估可以通过运行以下命令来执行： shell bash exps/eval_ekcls.sh
数据集的引用格式如下： latex @misc{pei2025modeling, title={Modeling Fine-Grained Hand-Object Dynamics for Egocentric Video Representation Learning}, author={Baoqi Pei, Yifei Huang, Jilan Xu, Guo Chen, Yuping He, Lijin Yang, Yali Wang, Weidi Xie, Yu Qiao, Fei Wu, Limin Wang}, year={2025}, eprint={2503.00986}, archivePrefix={arXiv}, primaryClass={cs.CV} }

搜集汇总

数据集介绍

构建方式

在自我中心视频理解领域，手与物体的运动及其交互作用至关重要。HOD数据集的构建采用了创新的管道，该管道结合了手物体检测器与大规模语言模型，生成了包含手物体动态详细描述的高质量叙述。通过这种设计，数据集能够捕捉到手与物体之间的细微动态，为后续的学习任务提供了丰富的信息基础。

特点

HOD数据集的主要特点在于其精细粒度的手物体动态建模，这为自我中心视频的表现学习提供了新的视角。该数据集覆盖了广泛的手物体交互场景，不仅实现了当前任务上的突破性表现，还展现出了在零样本设置下的稳健迁移性。此外，数据集的构建注重了高质量注释的生成，从而确保了数据集的可用性和研究价值。

使用方法

使用HOD数据集首先需要通过提供的链接获取数据集注释，然后根据官方的安装指南设置环境，并运行预训练或微调脚本。对于预训练模型，用户可以从指定的链接下载模型检查点。对于零样本评估，用户可以直接运行`exps`目录下的脚本。在使用前，用户需要根据实际情况修改配置文件，以适应不同的训练需求。

背景与挑战

背景概述

HOD数据集，全称为EgoHOD，是在2025年ICLR会议中提出的研究成果，由Baoqi Pei、Yifei Huang、Jilan Xu等研究人员共同完成。该数据集旨在解决现有第一人称视频理解方法中对于手与物体之间复杂动态关系的忽视问题，通过引入精细化的手-物体动态模型，为视频表征学习提供了新的视角。HOD数据集的构建，不仅填补了相关领域的空白，也为后续的研究提供了重要的数据支持和参考，推动了 egocentric video representation learning 的发展。

当前挑战

HOD数据集在构建过程中面临的主要挑战包括：1) 缺乏适用于精细化手-物体动态学习的现成数据集，因此需要开发新的数据生成管道；2) 如何在视频表征学习中有效融入手-物体的细微动态，提出了一种新的轻量级运动适配器EgoVideo模型，并通过协同训练策略来提升学习效率。此外，数据集的构建还涉及到高质量的注释生成、模型的预训练与微调等技术和算法上的挑战。

常用场景

经典使用场景

在自我中心视频理解的研究领域，HOD数据集的提出，为精细化的手-物动态建模提供了基础资源。该数据集通过结合手-物检测器与大型语言模型，生成富含详细手-物动态描述的高质量叙述，成为研究者在 egocentric video representation learning 任务中的经典应用场景。

解决学术问题

HOD数据集解决了现有自我中心视频表征学习方法中，忽视手与物体之间复杂动态关系的问题。通过引入 EgoVideo 模型，该数据集使得研究能够有效捕捉并利用这些精细的手-物动态信息，从而在多个自我中心下游任务中取得领先性能，如零样本设置的 EK-100 多实例检索、EK-100 分类以及 EGTEA 分类等。

衍生相关工作

基于HOD数据集，研究者们衍生出了一系列相关工作，如 EgoVideo 模型的提出，以及在手-物交互和机器人操纵等领域的应用探索，这些工作进一步扩展了自我中心视频理解的研究边界，并促进了相关技术的创新发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集