dual_camera_demo

Hugging Face2025-09-10 更新2025-09-11 收录

下载链接：

https://huggingface.co/datasets/NLTuan/dual_camera_demo

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集使用LeRobot创建，遵循apache-2.0许可。数据集的结构包括每个片段的数据路径和存储在文件中的数据类型，如机器人的动作和观察数据。数据集包含一个训练集分割。但是README中没有提供关于数据集的详细描述、创建过程或内容，除了在info.json文件中给出的结构细节。

创建时间：

2025-09-04

原始信息汇总

数据集概述

基本信息

许可证: apache-2.0
任务类别: 机器人学
标签: LeRobot

数据集结构

总情节数: 1
总帧数: 150
总任务数: 1
总视频数: 2
总块数: 1
块大小: 1000
帧率: 10
分割: 训练集（0:1）

数据特征

动作

数据类型: float32
形状: [6]
名称: servo_1, servo_2, servo_3, servo_4, servo_5, servo_6

观测状态

数据类型: float32
形状: [6]
名称: servo_1, servo_2, servo_3, servo_4, servo_5, servo_6

观测图像（前视）

数据类型: 视频
形状: [480, 640, 3]
名称: 高度, 宽度, 通道
信息:
- 视频高度: 480
- 视频宽度: 640
- 视频编解码器: av1
- 视频像素格式: yuv420p
- 是否为深度图: 否
- 视频帧率: 10
- 视频通道数: 3
- 是否有音频: 否

观测图像（腕部）

数据类型: 视频
形状: [480, 640, 3]
名称: 高度, 宽度, 通道
信息:
- 视频高度: 480
- 视频宽度: 640
- 视频编解码器: av1
- 视频像素格式: yuv420p
- 是否为深度图: 否
- 视频帧率: 10
- 视频通道数: 3
- 是否有音频: 否

其他特征

时间戳: float32, 形状 [1]
帧索引: int64, 形状 [1]
情节索引: int64, 形状 [1]
索引: int64, 形状 [1]
任务索引: int64, 形状 [1]

数据存储

数据路径: data/chunk-{episode_chunk:03d}/episode_{episode_index:06d}.parquet
视频路径: videos/chunk-{episode_chunk:03d}/{video_key}/episode_{episode_index:06d}.mp4

技术信息

代码库版本: v2.1
机器人类型: rosmaster

搜集汇总

数据集介绍

构建方式

在机器人技术领域，dual_camera_demo数据集通过LeRobot框架精心构建，采用双摄像头系统同步采集数据。该数据集包含150帧连续记录，以10fps的帧率捕获，涵盖单次完整任务执行过程。数据以分块形式存储于Parquet格式文件中，每个数据块包含机械臂的六维动作指令、关节状态观测及双视角视觉信息，确保时序一致性与数据完整性。

使用方法

研究者可通过加载Parquet数据文件直接访问结构化数据，利用帧索引实现快速时序检索。双摄像头视频数据可通过指定视频路径解码获取，动作与状态数据可直接用于策略网络训练。数据集默认划分为训练集，支持端到端的机器人控制算法验证，建议配合LeRobot代码库进行数据预处理与模型部署。

背景与挑战

背景概述

在机器人学习领域，多模态感知数据的整合对于提升智能体环境交互能力具有关键意义。dual_camera_demo数据集由LeRobot团队基于Apache 2.0许可证构建，专为机器人控制任务设计。该数据集通过双摄像头系统（前视与腕部视角）同步采集视觉信息与伺服电机状态数据，旨在解决机器人操作任务中的视觉-动作映射问题。其采用标准化数据存储格式，包含150帧时序数据与6自由度机械臂控制指令，为模仿学习与强化学习算法提供了高质量的多模态训练资源。

当前挑战

该数据集核心挑战在于解决机器人视觉伺服控制中的时空对齐问题，需同步处理不同视角的图像流与高精度动作指令的映射关系。构建过程中面临多传感器时序同步的技术难点，包括双摄像头帧率匹配、机械臂状态采样与视觉数据的时间戳对齐。此外，大规模视频数据的压缩存储与实时解码要求平衡视觉质量与计算效率，而6自由度动作空间的连续控制策略建模需克服高维动作空间的探索难题。

常用场景

经典使用场景

在机器人视觉控制领域，dual_camera_demo数据集通过双视角视觉数据与机械臂关节状态的同步记录，为模仿学习算法提供了多模态训练范本。其前视与腕部摄像头分别捕获环境全局信息和操作细节，结合六自由度伺服电机动作数据，构建了从视觉感知到运动执行的完整映射关系，成为机器人手眼协调研究的标准基准。

解决学术问题

该数据集有效解决了视觉运动策略泛化性不足的学术难题。通过提供时空对齐的双视角视频流与精确的动作标注，研究者能够开发跨视角特征融合模型，突破单视角视觉表征的局限性。其多模态架构为研究视觉-动作对应关系、时空一致性建模提供了实验基础，显著推动了具身智能领域的算法创新。

实际应用

工业自动化场景中，该数据集支持开发基于视觉反馈的精密操作系统。双摄像头配置模拟了工业质检与装配场景，前视摄像头监控全局工作区域，腕部摄像头提供工具-工件交互细节，这种架构可用于训练精密抓取、零件装配等任务的视觉伺服控制器，为智能制造提供可靠的感知-控制一体化解决方案。

数据集最近研究