five

SynData

收藏
Hugging Face2026-04-23 更新2026-04-24 收录
下载链接:
https://huggingface.co/datasets/PsiBotAI/SynData
下载链接
链接失效反馈
官方服务:
资源简介:
SynData是由PsiBot发布的新一代大规模真实世界多模态数据集,全面覆盖视觉、语言和动作等关键维度,为具身智能训练提供高度真实、高密度且高度可用的数据基础。该数据集通过PsiBot自主研发的外骨骼手套系统采集,实现毫米级定位精度,捕捉双手和手臂的全部自由度,同时保留操作者在真实任务中的自然行为。SynData包含外骨骼数据和裸手数据,结合高精度结构化捕获与自然人类交互行为,为具身模型提供更丰富、更全面的学习样本。数据集以剪辑级别组织,存储在卷级别,采用.zarr格式分发,并通过Parquet文件管理全局索引和注释数据。每个剪辑代表完成任务的完整时间序列,包含多种模态,如头部RGB图像序列、深度图像序列、头部姿态、手腕姿态、手部关节状态和指尖关键点等。数据集设计用于视觉-动作建模、操作学习、模仿学习和多模态具身智能研究,支持长时程任务建模、机器人抓取、操作和交互策略训练等应用场景。

SynData is a new-generation large-scale real-world multimodal dataset released by PsiBot, comprehensively covering key dimensions such as vision, language, and action, providing a highly realistic, high-density, and highly usable data foundation for embodied intelligence training. The dataset is collected through PsiBots self-developed exoskeleton glove system, achieving millimeter-level positioning accuracy, capturing all degrees of freedom of the hands and arms, while preserving the natural behavior of operators in real tasks. SynData includes exoskeleton data and bare-hand data, combining high-precision structured capture with natural human interaction behaviors, providing richer and more comprehensive learning samples for embodied models. The dataset is organized at the clip level, stored at the volume level, distributed in .zarr format, and managed with Parquet files for global indexing and annotation data. Each clip represents a complete time series of task completion, containing multiple modalities such as head RGB image sequences, depth image sequences, head pose, wrist pose, hand joint states, and fingertip keypoints. The dataset is designed for vision-action modeling, operation learning, imitation learning, and multimodal embodied intelligence research, supporting applications such as long-term task modeling, robot grasping, operation, and interaction strategy training.
创建时间:
2026-04-21
原始信息汇总

SynData 数据集概述

1. 基本信息

  • 数据集名称: SynData
  • 发布机构: PsiBot
  • 语言: 英语
  • 发布时间: 预计 2026 年 4 月底前上传完成
  • 数据集类型: 大规模真实世界多模态数据集,涵盖视觉、语言和动作维度

2. 数据特点

  • 基于 PsiBot 自研外骨骼手套系统采集,定位精度达到毫米级别
  • 完整捕捉双手和手臂的全自由度
  • 同时包含外骨骼数据和裸手数据,兼顾高精度结构化捕捉和自然交互行为
  • 提供高真实感、高密度、高可用性的人体数据,适用于具身智能训练

3. 数据组织与存储

3.1 组织方式

  • clip(片段) 为最小训练单元,以 volume(卷) 为单位存储
  • 每个 volume 存储为 .zarr 目录,以 .zarr.tar 包形式分发
  • 全局索引和标注数据使用 Parquet 文件管理

3.2 推荐目录结构

dataset_root/ ├── task.json ├── index/ │ └── clips.parquet ├── annotations/ │ ├── clip_annotations.parquet │ └── clip_steps.parquet └── tasks/ ├── task_0001/ │ ├── 000001.zarr │ ├── 000002.zarr │ └── ... ├── task_0002/ └── ...

3.3 文件说明

  • task.json: 任务 ID 与任务名称的映射
  • index/clips.parquet: 全局 clip 索引
  • annotations/clip_annotations.parquet: clip 级别摘要标注
  • annotations/clip_steps.parquet: clip 内步骤级别标注
  • tasks/<task_id>/<volume_id>.zarr: 多模态数据卷

4. 数据粒度

  • 最小训练单元: clip(片段),表示完成一个任务的完整时间序列
  • clip 索引字段:clip_id(唯一标识)、task_key(任务 ID)、volume_id(卷 ID)、rel_path(相对路径)、start_idx(起始帧索引)、end_idx(结束帧索引)、num_frames(帧数)
  • 访问 clip 步骤:查询 clips.parquet → 定位 .zarr 路径 → 使用 start_idx:end_idx 切片多模态序列

5. 模态信息

5.1 包含的模态

  • head_rgb: 头部摄像头 RGB 图像序列
  • head_depth: 头部摄像头深度图像序列
  • head_camera_intrinsics: 头部摄像头内参
  • head_tracker2head_camera: 头部追踪器到头部摄像头的外参变换
  • head_pose: 头部姿态
  • left_wrist_pose / right_wrist_pose: 左右手腕姿态
  • left_qpos / right_qpos: 左右手关节状态
  • left_fingertip / right_fingertip: 左右手指尖关键点

5.2 帧采样与时间对齐

  • 目标时间分辨率:10 FPS
  • 所有模态(视觉、深度、姿态、关节状态、关键点)映射到统一时间帧序列
  • 同一 clip 内的所有模态共享一致的时间索引
  • 无需用户额外进行时间对齐

6. 存储格式

  • 使用 Zarr v3 目录格式
  • 目录结构:zarr.json(根)+ data/<modality>/zarr.json + data/<modality>/...chunk files
  • zarr.json 记录卷的模态列表
  • 每个模态存储为独立数组,时间维度始终为第一维度

7. 标注文件

  • clip_annotations.parquet: 存储 clip 级别摘要标注(任务摘要、语义描述)
  • clip_steps.parquet: 存储 clip 内步骤级别标注,支持长时程任务分解、步骤级监督、分层策略学习

8. 任务元数据

  • task.json 提供任务 ID 到任务名称的映射
  • 示例任务:整理衣物(task_0001)、整理盒子(task_0002)、易碎物品包装(task_0003)
  • 任务 ID 可作为离散任务标签,任务名称可用于语言条件建模

9. 应用场景

  • 具身操作学习
  • 模仿学习
  • 多模态行为建模
  • 视觉-动作联合建模
  • 长时程任务建模
  • 机器人抓取、操作和交互策略训练
搜集汇总
数据集介绍
main_image_url
构建方式
SynData由PsiBot团队借助自主研发的专属外骨骼手套系统精心构建而成,该系统专为数据采集设计,能够实现毫米级的定位精度,并完整捕捉双手及手臂的全自由度运动。在采集过程中,研究者在执行真实世界任务时的自然操作行为得以忠实保留。尤为独特的是,该数据集同时囊括了基于外骨骼的结构化高精度数据与裸手交互的自然行为数据,两种数据形态相辅相成,为具身模型提供了更为丰富和全面的学习样本。所有多模态数据均以10帧每秒的统一时间分辨率进行重采样与对齐,确保视觉、深度、位姿、关节状态及指尖关键点等模态在相同时间索引下严格同步,并最终以Zarr v3格式高效存储。
特点
SynData作为下一代大规模真实世界多模态数据集,其核心特点在于高度逼真、高密度与高可用性。数据以‘片段’为最小训练单元组织了完整的任务执行序列,并辅以全局索引与精细的步骤级标注(clip_steps.parquet),便于长程任务分解与层级策略学习。数据集在任务元数据(task.json)中提供了任务标识符与语义描述,支持离散任务标签与语言条件建模。其强大的硬件-软件一体化采集管线显著提升了数据的一致性、复用性与泛化价值,为具身智能从实验室研究迈向工业部署铺设了坚实的数据基石。
使用方法
用户可通过查阅全局片段索引文件(index/clips.parquet)定位目标片段,根据其记录的卷ID与相对路径找到对应的Zarr数据卷,并利用起始与结束帧索引直接切片获取多模态序列。直观的数据布局将任务、索引、标注与多模态数据卷分门别类,极大简化了数据加载流程。该数据集特别适用于具身操作学习、模仿学习、视觉-动作联合建模及长程任务建模等前沿研究领域。用户可直接利用已同步对齐的10帧每秒数据进行多模态模型训练,无需额外处理时间对齐问题,显著降低了预处理的复杂度。
背景与挑战
背景概述
SynData是由PsiBot机构于2026年发布的一款面向具身智能的大规模多模态数据集。该数据集以视觉、语言与动作三大核心维度为框架,旨在为具身智能体的训练提供高保真、高密度且高可用性的人类操作数据。其背后的研发依托于PsiBot自研的全身外骨骼手套系统,能够实现毫米级定位精度并完整捕捉双臂与手部的全自由度运动,同时保留自然操作行为。值得注意的是,SynData同时涵盖基于外骨骼的结构化数据与裸手采集的自然交互数据,为具身模型提供了更丰富、更全面的学习样本。该数据集的主要研究方向包括具身操纵学习、模仿学习、多模态行为建模以及视-觉联合建模,其设计显著提升了数据的一致性、可复用性与泛化价值,有望推动具身智能从实验室研究向工业部署的关键跨越。
当前挑战
SynData所应对的核心领域挑战在于:具身智能领域长期缺乏兼具高精度与高自然度的多模态真实世界数据集,现有数据集常受限于单一感知模态、低时空分辨率和有限的任务覆盖,难以支撑复杂操纵任务的学习与泛化。在数据集构建过程中,PsiBot面临了多重技术挑战:首先,如何在外骨骼手套实现高精度位姿捕捉(毫米级)的同时,保持操作者自然行为的流畅性与无感干扰,这需要在硬件设计上平衡精度与舒适度。其次,多模态数据(包括RGB、深度、姿态、关节状态与指尖关键点)的时空对齐是一大难点,SynData通过统一10Hz时间线对所有模态进行重采样,确保了帧级别的一致性。此外,数据以clip为基本单元组织并采用Zarr v3格式存储,有效解决了大规模多模态数据的层次化索引与高效存取问题。最后,任务层级的语义标注(如clip_annotations与clip_steps)的生成需要精确的步骤分解与语义描述,这对数据采集与标注流程提出了极高的系统性要求。
常用场景
经典使用场景
在具身智能研究领域,SynData作为新一代大规模真实世界多模态数据集,其最经典的用途在于支撑视觉-动作联合建模与模仿学习。研究人员利用该数据集所提供的高精度手部与手臂运动轨迹、多视角视觉观测及深度信息,能够训练机器人执行精细的抓取、操作与交互策略。数据以完整的任务片段为单位进行组织,天然适用于端到端的行为克隆与策略学习范式。凭借毫米级定位精度以及自然操作行为的保留,SynData为具身模型在真实场景中的部署提供了训练与评估的双重基础,尤其在长时域任务建模与灵巧操作学习方面展现出显著优势。
实际应用
在实际产业落地层面,SynData为具身智能系统从实验室研究向工业部署的转化提供了关键驱动力。基于该数据集训练的视觉-动作模型可被应用于智能仓储中的物品分拣与包装、家庭服务场景中的衣物整理和脆弱物品搬运,以及制造环境中精密的装配操作。凭借其高达10帧每秒的稳定采样率与严格对齐的多模态时序,SynData能够支持实时机器人控制系统对动作序列的即时解析与执行。其工程化设计还降低了模型训练阶段的数据预处理复杂度,使得企业能够将更多资源聚焦于策略优化与系统集成,从而加速具身智能产品的商业化进程。
衍生相关工作
SynData的发布催生了多个方向的经典衍生研究工作。在策略学习领域,基于其片段级任务划分特性,研究人员开发了适用于长时域任务的分层模仿学习框架,有效提升了复杂任务的成功率。在多模态融合方面,该数据集促进了视觉与关节状态协同建模方法的涌现,衍生出新型跨模态注意力机制与时间对齐网络。此外,数据集中裸手与外骨骼数据的对比特性,激发了关于数据采集噪声鲁棒性与域适应策略的系列研究,推动了仿真到真实迁移技术的进步。这些工作不仅深化了对具身智能训练数据本质的理解,也为后续更大规模数据集的设计与构建奠定了方法论基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作