EgoHaFL

Hugging Face2025-11-23 更新2025-11-24 收录

下载链接：

https://huggingface.co/datasets/ut-vision/EgoHaFL

下载链接

链接失效反馈

官方服务：

资源简介：

EgoHaFL是一个针对第一人称视角的3D手部预测任务设计的(dataset designed for egocentric (first-person) 3D hand forecasting)数据集，包含视频片段、文本描述、相机内参和基于MANO的详细3D手部标注。支持3D手部预测、手部姿态估计、手部与物体交互理解以及视频-语言建模等研究任务。

EgoHaFL is a dataset designed for egocentric (first-person) 3D hand forecasting tasks. It contains video clips, text descriptions, camera intrinsic parameters, and detailed MANO-based 3D hand annotations. This dataset supports a variety of research tasks including 3D hand prediction, hand pose estimation, hand-object interaction understanding, and video-language modeling.

创建时间：

2025-11-21

原始信息汇总

EgoHaFL数据集概述

数据集基本信息

数据集名称: EgoHaFL: Egocentric 3D Hand Forecasting Dataset with Language Instruction
许可证: MIT
语言: 英语
数据规模: 200K<n<300K
标签: embodied-ai, robotic, egocentric, 3d-hand, forecasting, hand-pose

数据集构成

数据划分

训练集: 241,912个样本
测试集: 5,108个样本

数据文件

EgoHaFL_train.csv
EgoHaFL_test.csv

数据特征结构

CSV文件字段

uid: 唯一样本标识符
video_id: 源视频标识符
start_second: 片段开始时间（秒）
end_second: 片段结束时间（秒）
caption: 自然语言指令/描述
fx, fy: 相机焦距
cx, cy: 主点坐标
vid_w, vid_h: 原始视频分辨率

3D手部标注（LMDB格式）

键: uid
值: 16个元素的列表，代表3秒视频段中均匀采样的帧

每帧标注内容

mano_params
- global_orient (n, 1, 3, 3)
- hand_pose (n, 15, 3, 3)
- betas (n, 10)
is_right (n,)
keypoints_3d (n, 21, 3)
keypoints_2d (n, 21, 2)
vertices (n, 778, 3)
box_center (n, 2)
box_size (n,)
camera_t (n, 3)
focal_length (n, 2)

视频数据来源

视频片段源自Ego4D V1数据集
使用压缩至224p分辨率的原始长度视频

支持的研究任务

以自我为中心的3D手部预测
手部运动预测和轨迹建模
3D手部姿态估计
手-物体交互理解
视频-语言多模态建模
基于3D人手的时序推理

搜集汇总

数据集介绍

构建方式

在构建EgoHaFL数据集的过程中，研究团队从Ego4D V1数据集中选取了第一人称视角的视频片段，并对其进行了精细的标注处理。每个样本包含一个3秒的视频段，均匀采样为16帧，每帧均配备了MANO参数、三维关键点坐标、二维投影点以及相机内参等详尽的注释信息。数据以CSV文件和LMDB数据库相结合的形式存储，确保了大规模数据的高效访问与管理。

特点

EgoHaFL数据集的核心特点在于其融合了多模态信息，不仅提供了丰富的三维手部运动数据，还结合了自然语言指令描述。该数据集覆盖了24万余训练样本和5千余测试样本，每一帧均包含可变数量的手部实例，并采用标准的MANO模型参数化表示，支持手部姿态、形状及运动轨迹的精确建模。其标注结构层次清晰，涵盖了从全局姿态到局部顶点坐标的完整几何信息。

使用方法

使用EgoHaFL数据集时，研究者可通过加载CSV元数据文件获取视频片段的基本信息，再结合LMDB数据库读取对应的三维注释数据。数据集适用于训练和评估手部运动预测、姿态估计及多模态理解模型，官方提供了专门的数据加载器实现以简化处理流程。用户需注意帧间手部数量的动态变化，并合理设计模型以处理可变长度的输入序列。

背景与挑战

背景概述

随着增强现实与具身智能系统的发展，第一人称视角下的手部动态理解成为人机交互领域的核心课题。EgoHaFL数据集由研究团队于2024年基于Ego4D V1数据集构建，聚焦于以自我中心视角下的三维手部运动预测问题。该数据集通过融合自然语言指令与密集的MANO参数化手部模型标注，为探索语言引导下的手部轨迹生成机制提供了结构化数据支撑，显著推动了具身智能在动态手势理解与操作任务中的研究进程。

当前挑战

在三维手部轨迹预测领域，模型需解决高自由度手部运动的时空建模难题，同时需实现语言指令与动态手势的跨模态对齐。数据构建过程中面临多维度挑战：从原始视频中提取连续帧的精确手部参数需克服遮挡与运动模糊问题；标注系统需处理视频中手部数量动态变化的情形，并保持三维关节点与二维投影的空间一致性；语言描述与动作序列的关联标注更要求对复杂手物交互场景的语义解构能力。

常用场景

经典使用场景

在计算机视觉与具身智能研究领域，EgoHaFL数据集为第一视角下的三维手部运动预测提供了重要支撑。该数据集通过结合自然语言指令与连续帧序列，支持模型学习从文本描述到未来手部姿态的映射关系。研究者可基于16帧均匀采样的视频片段，利用MANO参数化手部模型，构建端到端的时序预测网络，探索语言引导下的手部运动轨迹生成机制。

解决学术问题

该数据集有效解决了传统手部姿态估计中缺乏时序动态建模的局限性，为三维手部运动预测这一新兴研究方向提供了基准测试平台。通过融合视觉模态与语言模态，它推动了多模态表征学习的发展，特别是在理解手-物交互意图方面具有突破性意义。其精确的3D标注体系为评估预测模型的几何一致性提供了可靠依据，显著提升了该领域研究的可复现性与可比性。

衍生相关工作

基于EgoHaFL数据集已衍生出多个具有影响力的研究分支，包括时序手部运动生成网络、语言引导的动作预测框架等创新方向。相关研究通过改进时空注意力机制，显著提升了长序列手部轨迹的预测精度。部分工作进一步探索了多任务学习范式，将手部预测与物体交互推理相结合，形成了更为完整的具身智能研究体系，为后续研究奠定了坚实的方法论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集