five

satyam-manav/test_lerobot_vis

收藏
Hugging Face2026-04-10 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/satyam-manav/test_lerobot_vis
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: apache-2.0 task_categories: - robotics pretty_name: OmniViTac LeRobot v3 (Test Run) language: - en tags: - LeRobot - robotics - multimodal - video - tabular - time-series configs: - config_name: default data_files: - split: train path: data/*/*.parquet --- # OmniViTac LeRobot v3 (Test Run) This dataset is in LeRobot `v3.0` format and contains 16 OmniViTac episodes. ## Dataset Summary - Robot type: `OmniViTac` - Total episodes: `16` - Total frames: `3278` - FPS: `15.0` - Splits: `train: 0:16` - Data path template: `data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet` - Video path template: `videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4` ## Dataset Structure ``` meta/ info.json stats.json tasks.parquet episodes/chunk-000/file-000.parquet data/ chunk-000/file-000.parquet videos/ observation.images.camera1/chunk-000/file-000.mp4 observation.images.camera2/chunk-000/file-000.mp4 observation.images.tactile1_raw/chunk-000/file-000.mp4 observation.images.tactile2_raw/chunk-000/file-000.mp4 observation.images.tactile1_diff/chunk-000/file-000.mp4 observation.images.tactile2_diff/chunk-000/file-000.mp4 ``` ### meta/info.json ```json { "codebase_version": "v3.0", "robot_type": "OmniViTac", "total_episodes": 16, "total_frames": 3278, "total_tasks": 1, "chunks_size": 1000, "data_files_size_in_mb": 100, "video_files_size_in_mb": 500, "fps": 15.0, "splits": { "train": "0:16" }, "data_path": "data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet", "video_path": "videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4", "features": { "timestamp": { "dtype": "float32", "shape": [ 1 ], "names": null }, "frame_index": { "dtype": "int64", "shape": [ 1 ], "names": null }, "episode_index": { "dtype": "int64", "shape": [ 1 ], "names": null }, "index": { "dtype": "int64", "shape": [ 1 ], "names": null }, "task_index": { "dtype": "int64", "shape": [ 1 ], "names": null }, "observation.state": { "dtype": "float32", "shape": [ 6 ], "names": { "axes": [ "x", "y", "z", "roll", "pitch", "yaw" ] } }, "observation.joints": { "dtype": "float32", "shape": [ 7 ], "names": { "axes": [ "joint_0", "joint_1", "joint_2", "joint_3", "joint_4", "joint_5", "joint_6" ] } }, "observation.gripper": { "dtype": "float32", "shape": [ 1 ], "names": { "axes": [ "gripper_pos" ] } }, "observation.joint_stamps": { "dtype": "int64", "shape": [ 1 ], "names": { "axes": [ "joint_stamp_ms" ] } }, "observation.tactile1_deform": { "dtype": "float32", "shape": [ 2100 ], "names": null }, "observation.tactile2_deform": { "dtype": "float32", "shape": [ 2100 ], "names": null }, "observation.depth.camera1": { "dtype": "float16", "shape": [ 480, 640 ], "names": [ "height", "width" ] }, "observation.depth.camera2": { "dtype": "float16", "shape": [ 720, 1280 ], "names": [ "height", "width" ] }, "observation.images.camera1": { "dtype": "video", "shape": [ 3, 480, 640 ], "names": [ "channel", "height", "width" ] }, "observation.images.camera2": { "dtype": "video", "shape": [ 3, 720, 1280 ], "names": [ "channel", "height", "width" ] }, "observation.images.tactile1_raw": { "dtype": "video", "shape": [ 3, 700, 400 ], "names": [ "channel", "height", "width" ] }, "observation.images.tactile2_raw": { "dtype": "video", "shape": [ 3, 700, 400 ], "names": [ "channel", "height", "width" ] }, "observation.images.tactile1_diff": { "dtype": "video", "shape": [ 3, 700, 400 ], "names": [ "channel", "height", "width" ] }, "observation.images.tactile2_diff": { "dtype": "video", "shape": [ 3, 700, 400 ], "names": [ "channel", "height", "width" ] }, "observation.source_timestamp.camera1_ms": { "dtype": "int64", "shape": [ 1 ], "names": null }, "observation.source_timestamp.camera2_ms": { "dtype": "int64", "shape": [ 1 ], "names": null }, "observation.source_timestamp.depth1_ms": { "dtype": "int64", "shape": [ 1 ], "names": null }, "observation.source_timestamp.depth2_ms": { "dtype": "int64", "shape": [ 1 ], "names": null }, "observation.source_timestamp.state_ms": { "dtype": "int64", "shape": [ 1 ], "names": null }, "observation.source_timestamp.joint_stamps_ms": { "dtype": "int64", "shape": [ 1 ], "names": null }, "observation.source_timestamp.gripper_ms": { "dtype": "int64", "shape": [ 1 ], "names": null }, "observation.source_timestamp.tactile1_deform_ms": { "dtype": "int64", "shape": [ 1 ], "names": null }, "observation.source_timestamp.tactile2_deform_ms": { "dtype": "int64", "shape": [ 1 ], "names": null }, "observation.source_timestamp.tactile1_raw_ms": { "dtype": "int64", "shape": [ 1 ], "names": null }, "observation.source_timestamp.tactile2_raw_ms": { "dtype": "int64", "shape": [ 1 ], "names": null }, "observation.source_timestamp.tactile1_diff_ms": { "dtype": "int64", "shape": [ 1 ], "names": null }, "observation.source_timestamp.tactile2_diff_ms": { "dtype": "int64", "shape": [ 1 ], "names": null } } } ``` ## Features - Scalars: `timestamp`, `frame_index`, `episode_index`, `index`, `task_index` - State/action-like vectors: - `observation.state` (6) - `observation.joints` (7) - `observation.gripper` (1) - `observation.joint_stamps` (1) - `observation.tactile1_deform` (2100) - `observation.tactile2_deform` (2100) - Depth: - `observation.depth.camera1` (480x640, float16) - `observation.depth.camera2` (720x1280, float16) - Videos: - `observation.images.camera1` (3x480x640) - `observation.images.camera2` (3x720x1280) - `observation.images.tactile1_raw` (3x700x400) - `observation.images.tactile2_raw` (3x700x400) - `observation.images.tactile1_diff` (3x700x400) - `observation.images.tactile2_diff` (3x700x400) - Source timestamps: - `observation.source_timestamp.camera1_ms` - `observation.source_timestamp.camera2_ms` - `observation.source_timestamp.depth1_ms` - `observation.source_timestamp.depth2_ms` - `observation.source_timestamp.state_ms` - `observation.source_timestamp.joint_stamps_ms` - `observation.source_timestamp.gripper_ms` - `observation.source_timestamp.tactile1_deform_ms` - `observation.source_timestamp.tactile2_deform_ms` - `observation.source_timestamp.tactile1_raw_ms` - `observation.source_timestamp.tactile2_raw_ms` - `observation.source_timestamp.tactile1_diff_ms` - `observation.source_timestamp.tactile2_diff_ms`
提供机构:
satyam-manav
搜集汇总
数据集介绍
main_image_url
构建方式
test_lerobot_vis数据集基于OmniViTac机器人平台采集,采用LeRobot v3.0格式进行标准化存储。数据采集过程中,机器人执行多模态感知任务,共记录16个完整轨迹片段,总计3278帧时序数据,采样频率为15帧/秒。在数据组织上,结构化信息以Parquet格式存储于data目录下的分块文件中,视频数据则编码为MP4格式存放于videos目录,并依据相机与触觉传感器类型进行分类归档。此外,meta目录中囊括了info.json、stats.json等元数据文件,详细描述了特征维度、传感器配置及数据划分信息,其中训练集涵盖0至15号共16个轨迹。
使用方法
该数据集依托LeRobot框架提供标准化接口,可通过huggingface_hub的load_dataset函数直接加载。使用时可指定config为default,并利用data_files参数定位训练集路径。加载后返回的数据结构符合LeRobot v3.0协议,其中observation.state等数值型字段可直接用于状态估计或策略学习,而视频字段则可通过索引访问图像帧。由于特征列表涵盖标量与张量混合类型,建议用户依据研究任务灵活选择子集:强视觉依赖场景可仅使用camera图像与触觉视频,而高精度跟踪任务则需联合位姿、关节与深度数据。数据已按15FPS标准化采样,便于直接用于模仿学习或强化学习训练流程。
背景与挑战
背景概述
在具身智能与机器人学习领域,多模态感知数据的标准化采集与发布是推动研究可复现性的关键基石。OmniViTac LeRobot v3 (Test Run) 数据集由相关研究团队创建,采用 LeRobot v3.0 格式,通过 OmniViTac 平台采集了 16 个机器人的操作片段,共计 3278 帧数据。该数据集以 15 FPS 的帧率同步记录视觉图像、深度信息、触觉变形数据及关节状态等多元模态信息,旨在为精细操作任务的模仿学习与多模态融合算法提供基准测试。其结构化的元数据与特征定义(如包含 7 个关节角、6 维位姿和 2100 维触觉变形向量)体现了对数据高效利用的前瞻设计,为机器人领域的数据驱动研究注入了规范化动力。
当前挑战
该数据集所解决的领域核心挑战在于高频异构传感器数据的时间对齐与模态融合问题:针对精细操作中触觉、视觉与本体感知的异步采集,亟需统一的时序框架以支持端到端学习。构建过程中面临的主要难点包括:(1)多种传感器(双目相机、触觉传感器、关节编码器)在 15 FPS 下的精确同步与时钟漂移补偿;(2)高维触觉变形数据(2100 维)与空间视觉图像的异构特征匹配;(3)小样本场景(仅 16 个片段)下的泛化能力验证,以及(4)大容量视频与表格数据的混合存储优化(如 Parquet 与 MP4 的协同管理),这些挑战共同催生了数据集在格式规范与采集流程上的精妙设计。
常用场景
经典使用场景
在机器人学习与多模态感知领域,OmniViTac LeRobot v3 (Test Run) 数据集为融合视觉与触觉信息的操作技能学习提供了典范级的测试平台。其最经典的运用在于训练端到端的模仿学习模型,通过集成高分辨率摄像头与触觉传感器数据,助力机器人完成复杂的物体抓取与精细操纵任务。数据集囊括了丰富的时序状态信息,包括关节角度、末端执行器位姿以及深度图像,使研究者能够探索视觉-触觉融合机制在提升操作鲁棒性中的核心作用。
解决学术问题
该数据集精准回应了机器人学术界的核心难题——如何在高维异构感知信息中学习统一、可迁移的操作策略。它首次在开放框架中提供了同步采集的视觉图像、触觉变形场与深度图,破解了多模态时序数据对齐与表征的瓶颈。借助此类资源,研究者得以深入探索跨模态知识蒸馏、弱监督泛化以及多任务迁移学习等前沿问题,推动了从仿真到真实世界的技能映射理论进步,为通用机器人操作智能的建立奠定了坚实基础。
实际应用
在实际应用层面,OmniViTac 数据集显著加速了下一代灵巧操作机器人在工业装配、医疗辅助与家庭服务等场景中的落地进程。基于该数据训练出的模型能够借由触觉反馈精确调节抓取力,避免易碎物品受损,并在动态环境中实现稳固定位。同时,其高保真的视觉-触觉同步记录范式为远程手术机器人的人机共享控制、软体机器人的自适应抓取以及人机协作中的安全交互提供了不可或缺的算法验证与优化依据。
数据集最近研究
最新研究方向
在机器人学习领域,多模态感知数据的融合与利用正成为前沿焦点,尤其是将视觉与触觉信息相结合以提升操作任务的精细度与鲁棒性。OmniViTac LeRobot v3数据集作为一项兼容LeRobot v3.0格式的标准测试集合,其16个片段与3278帧影像涵盖了双摄像头视觉、深度图、原始及差分触觉图像与触觉形变向量等多维信号,为模仿学习与表征学习提供了富有挑战性的基准。近期研究趋向于借助此类多源时间序列数据来训练端到端策略,探索任务无关的表征提取与跨模态对齐技术,以应对实际场景中传感器噪声与局部遮挡。该数据集的发布对于推动具身智能的通用操作能力、加速从仿真到真实环境的迁移具有重要的范式意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作