soup_can_digitaltwin_50_640_480_lighting_augmented

Hugging Face2025-11-03 更新2025-11-04 收录

下载链接：

https://huggingface.co/datasets/kimyg119/soup_can_digitaltwin_50_640_480_lighting_augmented

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个机器人数据集，包含300个episode，共49488帧，900个视频文件。每个episode包含动作数据、状态数据、时间戳等信息。数据集适用于机器人领域的研究和应用。

创建时间：

2025-10-31

原始信息汇总

数据集概述

基本信息

许可证: Apache-2.0
任务类别: 机器人学
标签: LeRobot
创建工具: LeRobot (https://github.com/huggingface/lerobot)

数据集结构

总体统计

总任务数: 1
总片段数: 300
总帧数: 49488
总视频数: 900
数据块数: 1
数据块大小: 1000
帧率: 30 fps
数据分割: 训练集 (0:300)

数据特征

动作特征 (action)

数据类型: float32
形状: [16]
关节位置:
- 左臂关节1-7位置
- 右臂关节1-7位置
- 左夹爪位置
- 右夹爪位置

状态观测 (observation.state)

数据类型: float32
形状: [16]
关节位置:
- 左臂关节1-7位置
- 右臂关节1-7位置
- 左夹爪位置
- 右夹爪位置

图像观测

头部相机 (cam_head):

数据类型: 视频
分辨率: 640×480×3
编码格式: AV1
像素格式: yuv420p
帧率: 30 fps
音频: 无

左腕相机 (cam_wrist_left):

数据类型: 视频
分辨率: 640×480×3
编码格式: AV1
像素格式: yuv420p
帧率: 30 fps
音频: 无

右腕相机 (cam_wrist_right):

数据类型: 视频
分辨率: 640×480×3
编码格式: AV1
像素格式: yuv420p
帧率: 30 fps
音频: 无

元数据特征

时间戳: float32 [1]
帧索引: int64 [1]
片段索引: int64 [1]
索引: int64 [1]
任务索引: int64 [1]

文件结构

数据文件路径: data/chunk-{episode_chunk:03d}/episode_{episode_index:06d}.parquet
视频文件路径: videos/chunk-{episode_chunk:03d}/{video_key}/episode_{episode_index:06d}.mp4

技术信息

代码库版本: v2.1
机器人类型: ffw_bg2

搜集汇总

数据集介绍

构建方式

在机器人技术领域，高质量的数据采集对算法性能至关重要。该数据集通过LeRobot平台构建，采用双臂仿人机器人ffw_bg2在模拟环境中执行任务，共采集300个完整交互片段，包含49488帧数据。数据以分块方式存储于parquet格式文件中，每块容纳1000个数据单元，确保了数据管理的系统性和高效性。视频数据采用AV1编解码技术，以30帧每秒的速率记录，为机器人学习提供了丰富的时序信息基础。

使用方法

针对机器人学习研究需求，该数据集支持端到端的训练流程。研究者可通过LeRobot框架直接加载parquet格式数据，利用内置工具处理多模态输入。训练时可同时利用关节状态观测和视觉观测构建状态表示，动作数据则作为监督信号指导策略网络优化。数据集已预设训练划分，包含全部300个交互片段，适用于行为克隆、强化学习等算法验证。视频数据可通过标准解码流程提取帧序列，为视觉-运动协同建模提供便利条件。

背景与挑战

背景概述

在机器人操作任务研究领域，高质量仿真数据的匮乏长期制约着算法模型的泛化能力提升。soup_can_digitaltwin_50_640_480_lighting_augmented数据集由HuggingFace的LeRobot团队构建，专注于双臂机器人对罐头类物体的精细操作任务。该数据集通过数字孪生技术生成300个完整操作序列，包含49488帧多视角视觉数据与16维关节控制指令，其特色在于引入光照增强机制以模拟真实环境变化，为模仿学习与视觉伺服控制研究提供了关键数据支撑。

当前挑战

该数据集致力于解决机器人精细操作中的视觉-动作映射难题，其核心挑战在于跨视角视觉特征与多关节协同控制的耦合建模。构建过程中面临双重挑战：一方面需通过数字孪生技术实现物理真实的动态交互仿真，另一方面须克服光照条件变化对视觉识别稳定性的干扰。数据采集环节还需确保多模态数据的时间同步精度，以及高维动作空间与视觉观测之间的语义对齐。

常用场景

经典使用场景

在机器人操作学习领域，该数据集通过双机械臂系统的关节位置数据与多视角视觉信息，为模仿学习与强化学习算法提供了标准化的训练环境。其包含的300个完整操作序列与49488帧同步传感器数据，能够有效支撑机器人从感知到动作的端到端策略学习，特别是在复杂光照条件下的物体操作任务中展现出重要价值。

解决学术问题

该数据集主要解决了机器人操作任务中感知-动作映射的建模难题，通过提供精确的关节运动轨迹与多模态视觉观测数据，为研究跨视角视觉表征学习、动作序列预测等关键问题奠定基础。其标准化数据格式与丰富的光照变化条件，显著提升了算法在真实场景下的泛化能力与鲁棒性评估效率。

实际应用

在工业自动化与智能仓储领域，该数据集可直接应用于双机械臂协同作业系统的开发，如精密装配、物料分拣等场景。通过模拟真实环境中的光照变化与物体空间关系，能够有效降低实体机器人调试成本，为柔性制造系统提供可靠的数字孪生训练平台。

数据集最近研究