egoinfinity

Hugging Face2026-05-08 更新2026-05-09 收录

下载链接：

https://huggingface.co/datasets/Rice-RobotPI-Lab/egoinfinity

下载链接

链接失效反馈

官方服务：

资源简介：

EgoInfinity数据集是从Action100M（Meta FAIR）数据集中精选出的子集的衍生场景资源，用于支持EgoInfinity Browser Space的数据后端。该数据集包含丰富的多模态数据，如3D场景（点云和网格）、手部跟踪数据（关节位置和顶点）、对象分割掩码、深度图和光流可视化等。数据集适用于以自我为中心（egocentric）的动作识别、手部跟踪和3D场景理解等任务。数据以多种格式存储，包括JSON、二进制文件和视频文件，便于直接用于下游任务。需要注意的是，原始RGB帧未重新分发，任何需要源像素的算法（如重新运行SAM3检测或SAM3D网格构建）无法单独使用此数据集完成。数据集采用FAIR非商业研究许可证v1，仅限非商业研究使用。

创建时间：

2026-05-07

原始信息汇总

EgoInfinity 数据集概述

数据集基本信息

名称: EgoInfinity
许可证: FAIR 非商业研究许可 v1（仅限非商业研究使用）
发布机构: Rice Robot Perception & Intelligence Lab
来源: 基于 Meta FAIR 的 Action100M 数据集中精选片段的衍生场景资产
关联项目: EgoInfinity Browser（可视化浏览器）
源代码: GitHub 仓库

数据集内容结构

每个样本（由 <clip_id> 标识）包含以下文件：

浏览与元数据

index.json — 浏览时段的片段列表
scene.json — 相机内参、物体元数据、资产路径
signals.json — 逐帧动作信号（跨物体 OR 合并）
thumb.jpg — 320×180 深度预览缩略图
recording.viser — 完整 3D 场景（点云 + 网格 + 手部）

可视化文件（有损，适合流式传输）

depth.mp4 — MoGe-2 深度图（inferno 色彩映射）
flow.mp4 — MEMFOF 光流可视化
mask.mp4 — SAM 追踪物体区域 × 原始 RGB（外部区域为黑色）

手部重建（无损）

hand_joints.bin — (T, H, 21, 3) float32 3D 关节点位置
hand_verts.bin — (T, H, 778, 3) float32 MANO 顶点烘焙
hand_faces.bin — (F, 3) uint16 MANO 拓扑
hand_meta.json — 骨骼连接与辅助元数据

物体重建（无损）

object_pose.bin — (T, N_obj, 4, 4) float32 逐帧 6DoF 姿势
object_obb.bin — (N_obj, 8, 3) float32 首帧有效 OBB
objects/obj_N.ply — 每个物体的 SAM3D 点云

原始数组（无损，可直接用于下游任务）

depth.npz — (T, H, W) uint16 mm 无损深度
masks.npz — 逐物体打包位 SAM 掩码
bg_template.png — uint16-mm PNG 背景深度模板
pose_track.json — 完整逐物体追踪器时间序列

加载示例（Python）

python import numpy as np, cv2, json

深度加载

depth = np.load("depth.npz")["depth"] depth_m = depth.astype(np.float32) / 1000.0

逐物体 SAM 掩码加载

m = np.load("masks.npz") T, H, W = m["_shape"] oids = m["_oids"]

背景深度模板

bg = cv2.imread("bg_template.png", cv2.IMREAD_UNCHANGED).astype(np.float32) / 1000.0

追踪器状态

pti = json.load(open("pose_track.json"))

物体 6DoF 姿势

N_obj = len(json.load(open("scene.json"))["reconstruction"]["objects"]) poses = np.fromfile("object_pose.bin", dtype=np.float32).reshape(-1, N_obj, 4, 4)

重要说明

原始 RGB 帧未重新分发，任何需要源像素的任务（如重新运行 SAM3、SAM2 追踪等）无法从本数据集独立完成
仅 mask.mp4 中包含 SAM 追踪物体区域内的原始 YouTube 像素（外部区域涂黑）
支持独立运行的算法：抓取/接触分类、状态机调优、ICP 位姿优化等
<clip_id> 格式：<youtube_video_id>_<start_sec>_<end_sec>

引用信息

bibtex @misc{egoinfinity2026, title = {EgoInfinity: A Web-Scale Data Engine for Video-to-Action Robot Learning through Egocentric Views}, author = {Rice Robot Perception & Intelligence Lab}, year = {2026}, note = {Preview release} }

搜集汇总

数据集介绍

构建方式

EgoInfinity数据集源自Meta FAIR发布的Action100M大规模动作视频库，经过精心筛选与派生处理，构建了一套以自我中心视角为核心的场景资产。原始视频片段通过先进的计算机视觉管线进行逐帧深度估计（采用MoGe-2）、光流计算（利用MEMFOF）以及对象分割（依托SAM-3与SAM-3D技术），在此基础上，进一步提取了手部三维关节与顶点位置（基于WiLoR管道与MANO模型）、目标物体的六自由度位姿与有向包围盒，并将所有非结构化信息组织为统一的场景描述文件。最终以`<youtube_video_id>_<起始秒>_<结束秒>`的命名规则标识每个片段，确保数据来源的可追溯性与结构的一致性。

特点

该数据集的突出特点在于其全链路的自我中心视觉信息表征能力，融合了原始视频的深度、光流、分割掩码、手部重建网格与物体位姿等多模态数据，且所有数据均以无损格式存储，便于下游任务直接加载使用。特别值得注意的是，原始RGB帧并未被直接分发，而是仅保留通过SAM追踪得到的物体区域裁剪结果，在最大程度上规避了版权与隐私风险。同时，数据集为每个片段提供了完整的背景深度模板、逐帧的软接触与抓取信号，以及姿态追踪的时序状态机信息，为细粒度的交互理解与机器人技能学习提供了坚实的数据支撑。

使用方法

使用者可通过Python生态中的NumPy、OpenCV与JSON库便捷地加载核心数据：深度图转换为以米为单位的浮点数矩阵，逐帧的物体掩码通过解包比特位还原为二值图像，而物体位姿与手部关键点则直接从二进制文件中读取标准化张量。补全场景的背景深度模板可辅助进行状态初始化，而`pose_track.json`中存储的追踪器状态序列则支持接触分类、状态机调优与ICP式位姿精化等算法。建议研究者在遵守FAIR非商业研究许可协议的前提下，结合自身任务需求，将深度、掩码与位姿数据作为独立输入，开展抓取检测、物体重排与手物交互等方向的实验与评估。

背景与挑战

背景概述

EgoInfinity数据集由莱斯大学机器人感知与智能实验室于2026年创建，旨在弥合互联网级第一人称视频与具身机器人学习之间的鸿沟。其核心研究问题聚焦于如何从海量非结构化的自我中心视频中提取精细化的手-物交互信号，以驱动机器人策略学习。作为Meta FAIR Action100M数据集的衍生资源，EgoInfinity通过提供毫米级深度图、精确手部关节重建、六自由度物体位姿及逐帧分割掩码等模态，构建了可复用的三维场景资产。该数据集借助Web可视化平台实现即时浏览，显著降低了大规模自我中心视频研究的门槛，对具身智能、动作识别和机器人操纵领域产生了重要影响。

当前挑战

EgoInfinity所应对的核心领域挑战在于，现有大规模视频数据集通常仅提供原始RGB帧，缺乏机器人学习所需的精确动作信号与物理交互表征，难以直接将视觉观测映射为可执行策略。构建过程中，研究团队面临多层次的复杂性：首先，原始YouTube视频的版权限制阻碍了完整帧的再分发，因此需要设计仅保留被SAM追踪物体区域的mask.mp4规避法律风险；其次，从单目视频中准确恢复手部三维拓扑（MANO模型）、物体点云及六自由度位姿，需融合多个视觉基础模型（如MoGe-2、WiLoR），其计算开销与结果一致性构成了严格的工程约束；最后，数据索引与三维场景资产的组织需兼顾浏览器端流式加载与离线分析效率，促成了lossy可视化与lossless原始阵列并存的架构设计。

常用场景

经典使用场景

EgoInfinity数据集为第一人称视角下的手物交互研究提供了高质量的多模态数据支撑。该数据集精选自Action100M大规模视频库，通过三维场景重建与精准的物体分割技术，构建了包含深度图、光流、手部关节点、手部网格顶点、物体六自由度位姿以及纹理分割掩码等丰富信息的样本。研究者可基于这些数据开展手部与物体的接触分类、抓取姿态分析、状态机参数调优以及基于ICP的点云配准等经典任务。数据集中的每段视频片段都伴随有精确的时序动作信号，为从第一人称视频中自动解析复杂操作行为提供了可靠的训练与评估基准。

实际应用

在实际应用层面，EgoInfinity数据集为机器人学习与人机交互系统的发展注入了新的活力。基于该数据集训练的手物交互理解模型可直接用于服务机器人对复杂操作任务的感知与执行，如物体抓取、工具使用和装配作业。同时，数据集提供的三维场景重建结果与手部运动参数，能够赋能增强现实（AR）环境中的自然手势交互与虚拟物体操作反馈系统。此外，光流与深度信息的结合为自动驾驶场景中行人意图预测和安全避障策略的优化提供了新的数据来源。

衍生相关工作

EgoInfinity数据集的发布催生了一系列具有影响力的衍生研究工作。基于其提供的三维物体点云与手部网格，研究者发展出面向第一人称视频的精细动作分割与识别算法，例如通过时空图卷积网络捕捉手部与物体的动态交互拓扑。在物体姿态追踪方面，数据集中的多帧六自由度位姿标注被用于训练端到端的物体位姿估计网络，从而简化了传统基于迭代优化的计算流程。此外，结合深度图与背景模板，涌现出多种轻量级的在线场景重建方法，这些方法在机器人实时操作规划中表现出了优异的性能。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集