egoinfinity
收藏EgoInfinity 数据集概述
数据集基本信息
- 名称: EgoInfinity
- 许可证: FAIR 非商业研究许可 v1(仅限非商业研究使用)
- 发布机构: Rice Robot Perception & Intelligence Lab
- 来源: 基于 Meta FAIR 的 Action100M 数据集中精选片段的衍生场景资产
- 关联项目: EgoInfinity Browser(可视化浏览器)
- 源代码: GitHub 仓库
数据集内容结构
每个样本(由 <clip_id> 标识)包含以下文件:
浏览与元数据
index.json— 浏览时段的片段列表scene.json— 相机内参、物体元数据、资产路径signals.json— 逐帧动作信号(跨物体 OR 合并)thumb.jpg— 320×180 深度预览缩略图recording.viser— 完整 3D 场景(点云 + 网格 + 手部)
可视化文件(有损,适合流式传输)
depth.mp4— MoGe-2 深度图(inferno 色彩映射)flow.mp4— MEMFOF 光流可视化mask.mp4— SAM 追踪物体区域 × 原始 RGB(外部区域为黑色)
手部重建(无损)
hand_joints.bin— (T, H, 21, 3) float32 3D 关节点位置hand_verts.bin— (T, H, 778, 3) float32 MANO 顶点烘焙hand_faces.bin— (F, 3) uint16 MANO 拓扑hand_meta.json— 骨骼连接与辅助元数据
物体重建(无损)
object_pose.bin— (T, N_obj, 4, 4) float32 逐帧 6DoF 姿势object_obb.bin— (N_obj, 8, 3) float32 首帧有效 OBBobjects/obj_N.ply— 每个物体的 SAM3D 点云
原始数组(无损,可直接用于下游任务)
depth.npz— (T, H, W) uint16 mm 无损深度masks.npz— 逐物体打包位 SAM 掩码bg_template.png— uint16-mm PNG 背景深度模板pose_track.json— 完整逐物体追踪器时间序列
加载示例(Python)
python import numpy as np, cv2, json
深度加载
depth = np.load("depth.npz")["depth"] depth_m = depth.astype(np.float32) / 1000.0
逐物体 SAM 掩码加载
m = np.load("masks.npz") T, H, W = m["_shape"] oids = m["_oids"]
背景深度模板
bg = cv2.imread("bg_template.png", cv2.IMREAD_UNCHANGED).astype(np.float32) / 1000.0
追踪器状态
pti = json.load(open("pose_track.json"))
物体 6DoF 姿势
N_obj = len(json.load(open("scene.json"))["reconstruction"]["objects"]) poses = np.fromfile("object_pose.bin", dtype=np.float32).reshape(-1, N_obj, 4, 4)
重要说明
- 原始 RGB 帧未重新分发,任何需要源像素的任务(如重新运行 SAM3、SAM2 追踪等)无法从本数据集独立完成
- 仅
mask.mp4中包含 SAM 追踪物体区域内的原始 YouTube 像素(外部区域涂黑) - 支持独立运行的算法:抓取/接触分类、状态机调优、ICP 位姿优化等
<clip_id>格式:<youtube_video_id>_<start_sec>_<end_sec>
引用信息
bibtex @misc{egoinfinity2026, title = {EgoInfinity: A Web-Scale Data Engine for Video-to-Action Robot Learning through Egocentric Views}, author = {Rice Robot Perception & Intelligence Lab}, year = {2026}, note = {Preview release} }




