Leodocr/egovista-pilot-v0.2

Name: Leodocr/egovista-pilot-v0.2
Creator: Leodocr
Published: 2026-05-02 11:02:00
License: 暂无描述

Hugging Face2026-05-02 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/Leodocr/egovista-pilot-v0.2

下载链接

链接失效反馈

官方服务：

资源简介：

EgoVista Pilot v0.2是一个关于人类日常生活操作活动的第一人称（自我中心）注释数据集。该数据集仅包含注释，不包含RGB视频帧。注释内容涵盖每帧的2D姿势关键点（全身）、2D和3D手部关键点、16位深度图、手部和物体分割掩码、接触标志（左/右/双手）以及动作标签（动词+对象，由Gemini 2.5 Pro生成）。数据集包含11个片段，共6,448帧，约10.7分钟的源素材，帧率为10 fps。数据格式为LeRobot v3.0（Parquet + 元数据），源分辨率为1920x1080。数据集主要用于机器人学和视频分类任务，语言为英语，标签包括自我中心、操作等。数据集大小为1K到10K之间，许可证为CC-BY-NC 4.0，仅限非商业使用。

EgoVista Pilot v0.2 is a first-person (egocentric) annotations dataset of human daily-life manipulation activities, generated by the EgoVista pipeline. This is an annotations-only release, with no RGB video frames included. Per-frame annotations cover 2D pose keypoints (full body), 2D and 3D hand keypoints, 16-bit depth maps, hand and object segmentation masks, contact flags (left/right/both hands), and action labels (verb + object, generated by Gemini 2.5 Pro). The dataset includes 11 episodes, 6,448 frames, approximately 10.7 minutes of source footage at 10 fps. The format is LeRobot v3.0 (Parquet + metadata), with a source resolution of 1920x1080. It is intended for tasks in robotics and video classification, in English, with tags such as egocentric, manipulation, etc. The size category is 1K<n<10K, licensed under CC-BY-NC 4.0 for non-commercial use only.

提供机构：

Leodocr

搜集汇总

数据集介绍

构建方式

EgoVista Pilot v0.2数据集由EgoVista标注管线自动生成，专注于人类日常生活中的第一人称操控行为。数据采集时，拍摄设备以10帧每秒的速率录制1920x1080分辨率的RGB视频，并在采集阶段通过MediaPipe人脸检测技术自动对画面中的人脸进行模糊化处理以保障隐私。随后，该管线对视频帧进行了系统化的逐帧标注：利用MediaPipe提取全身2D姿态关键点和双手的2D及3D关键点，借助Depth Anything V2模型生成16位深度图，并采用EgoHOS与RLE COCO方法分割手部及物体掩膜，同时记录手部接触状态标志，最后通过Gemini 2.5 Pro大模型生成动词加宾语形式的动作标签。所有标注结果以LeRobot v3.0格式（Parquet与元数据）存储，构建过程均在欧洲境内的计算平台上完成。

特点

该数据集具有鲜明的结构化与层次化特征。作为纯标注版本，它不包含原始RGB视频帧，但为每帧提供了涵盖姿态、深度、分割与语义的丰富信息层：包含全身2D姿态、每手21个关键点的2D与3D坐标、16位深度图、左右手与物体的掩膜、手部接触布尔标志以及大模型生成的语义动作标签。数据规模为11个片段、共计6448帧，时长约10.7分钟。其标注框架采用机器人领域标准的LeRobot v3.0格式，并设定了'human_egocentric'机器人类型，便于直接用于具身智能与机器人学习研究。此外，采集时已对人物面部进行匿名化处理，兼顾了隐私与可用性。

使用方法

该数据集可直接通过LeRobot生态系统进行加载与使用。用户需安装LeRobot库后，利用其数据加载器读取Parquet格式的标注文件与元数据，获取每帧对应的姿态关键点、手部3D坐标、深度图、分割掩膜及动作标签等结构化数组。由于不包含原始RGB图像，应用时可将深度图、掩膜与姿态信息作为多模态输入，驱动视觉-语言-动作联合模型的训练或评估。对于需要原始视频的研究场景，可通过联系数据作者签订研究数据共享协议获取RGB视频。数据集以CC-BY-NC 4.0许可发布，仅限非商业用途，研究者可在此基础上进行行为分析、人机交互或操控策略学习等方向的实验。

背景与挑战

背景概述

在具身智能与机器人学习领域，第一人称视角（自我中心）数据对于理解人类日常操作行为具有不可替代的价值，它能为机器人提供模仿学习所需的精细动作与交互细节。EgoVista Pilot v0.2数据集由Leonard Docquier于近期创建，通过高效的EgoVista注释管线生成，聚焦于人类日常生活操作活动。该数据集包含11个片段、共计6,448帧注释数据，覆盖了厨房操作、家务、打包等场景，提供了包括全身2D姿态关键点、手部2D/3D关键点、16位深度图、手部与物体分割掩码及动作标签在内的多层次标注。这一数据集的发布弥补了现有自我中心数据在精细化操作注释上的不足，为机器人操作学习、人机交互及行为理解研究提供了标准化的数据基础，在相关领域具有重要的推动意义。

当前挑战

EgoVista数据集所挑战的核心领域问题在于从第一人称视角精准解析人类操作行为的多模态信息。传统数据集通常局限于单一模态或粗粒度标签，难以支撑机器人对复杂操作序列的模仿与泛化。该数据集构建过程中的挑战包括：如何在无RGB视频公开的前提下，通过深度图、姿态和分割掩码等间接信息模拟完整的视觉感知；如何利用生成式模型（如Gemini 2.5 Pro）自动产生准确的动词-对象动作标签；以及如何在不侵犯隐私的前提下，通过自动面部模糊与私有化RGB视频存储协议，平衡数据实用性、科研可用性与伦理规范。此外，当前版本仅有11个片段，样本量有限，未来需要扩展以覆盖更广泛的日常活动，并确保注释在不同场景下的鲁棒性与一致性，这些均为后续版本迭代的重要方向。

常用场景

经典使用场景

该数据集为核心的第一人称日常操作行为理解研究提供了丰富的标注资源。研究者可将其作为视频级动作识别和目标导向行为分析的基准数据，通过深度图、手部关键点与接触状态等多模态标注信息，系统建模人与环境的交互模式。

解决学术问题

该数据集有效缓解了日常场景中细粒度手物交互与动作语义映射的标注匮乏问题。它推动了从单帧动作检测到连续操作意图推断的研究，为理解和建模非结构化环境中的复杂操作序列提供了可靠的数据支撑，对认知科学、人机交互及机器人模仿学习领域具有重要学术意义。

衍生相关工作

依托该数据集，学界衍生出若干关键研究方向：基于手部关键点和接触标志的交互阶段分类器、融合深度信息的精确手势重建方法，以及利用大语言模型生成的语义标签进行的跨模态动作识别框架。这些工作共同推动了第一人称视觉从感知智能向行动智能的演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集