table_tasks_v2_gtdeltas

Hugging Face2025-12-26 更新2025-12-27 收录

下载链接：

https://huggingface.co/datasets/lucanunz/table_tasks_v2_gtdeltas

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集与LeRobot相关，涉及机器人技术任务，特别是使用'panda'机器人类型。它包含多种数据类型，包括视频数据（图像、手腕图像、左自我图像）和各种状态与动作数据（状态、动作、环境状态等），表明它可能用于机器人研究或涉及机器人控制和感知的机器学习任务。数据集结构详细记录了数据类型、形状和其他元数据。

创建时间：

2025-12-24

原始信息汇总

数据集概述

基本信息

数据集名称: table_tasks_v2_gtdeltas
创建工具: 使用 LeRobot 创建
许可证: Apache 2.0
任务类别: 机器人学
标签: LeRobot, panda, coop_env, multitask

数据集规模与结构

总任务数: 10
总情节数: 20
总帧数: 4752
总视频数: 60
数据块数: 1
数据块大小: 1000
帧率: 12 fps
数据分割: 训练集包含所有20个情节
数据格式: Parquet 文件
数据路径模式: data/chunk-{episode_chunk:03d}/episode_{episode_index:06d}.parquet
视频路径模式: videos/chunk-{episode_chunk:03d}/{video_key}/episode_{episode_index:06d}.mp4

数据特征

视觉特征

image: 视频格式，形状为 [256, 256, 3]，编码为 av1，无音频。
wrist_image: 视频格式，形状为 [256, 256, 3]，编码为 av1，无音频。
left_ego_image: 视频格式，形状为 [256, 256, 3]，编码为 av1，无音频。

状态与动作特征

state: 浮点32格式，形状为 [7]。
actions: 浮点32格式，形状为 [7]。
env_state: 浮点32格式，形状为 [13]。
active_robot: 整数64格式，形状为 [1]。
tcp_states: 浮点32格式，形状为 [12]。
gripper_states: 浮点32格式，形状为 [1]。
gripper_commands: 浮点32格式，形状为 [1]。
qpos: 浮点32格式，形状为 [9]。
progress_state: 浮点32格式，形状为 [1]。
action_w_progress: 浮点32格式，形状为 [8]。

索引与时间特征

timestamp: 浮点32格式，形状为 [1]。
frame_index: 整数64格式，形状为 [1]。
episode_index: 整数64格式，形状为 [1]。
index: 整数64格式，形状为 [1]。
task_index: 整数64格式，形状为 [1]。

技术详情

代码库版本: v2.1
机器人类型: panda
视频编解码器: av1
像素格式: yuv420p
视频非深度图: false
视频通道数: 3

搜集汇总

数据集介绍

构建方式

在机器人操作领域，table_tasks_v2_gtdeltas数据集依托LeRobot框架构建，专注于模拟桌面环境下的多任务操作场景。该数据集通过Franka Panda机械臂在协作环境中执行10种不同任务，采集了20个完整交互片段，总计4752帧数据。数据以Parquet格式存储，包含多视角视频流及机器人状态信息，视频采用AV1编码，分辨率为256x256，帧率为12fps，确保了视觉数据的紧凑性与高质量。

特点

该数据集的核心特征在于其丰富的多模态数据融合与结构化设计。除了常规的全局视角图像，还提供了手腕摄像头与左视角的视觉信息，形成三重视觉感知体系。机器人状态数据涵盖7维关节状态、13维环境状态及12维TCP状态，同时包含动作指令与夹爪控制信号。数据集采用分块存储机制，支持高效的数据加载与处理，特别适合用于机器人模仿学习与策略泛化研究。

使用方法

使用该数据集时，可通过LeRobot提供的标准接口进行数据加载与预处理。数据按片段组织，每个片段包含完整的任务执行轨迹，用户可根据任务索引或片段索引提取特定任务的数据。视觉数据以视频流形式存储，可通过解码获取逐帧图像；状态数据则直接以浮点数组形式提供。该数据集适用于训练端到端的机器人操作模型，也可用于多任务学习、视觉运动策略等研究方向，为算法验证提供标准化基准。

背景与挑战

背景概述

在机器人学习领域，模仿学习与多任务策略泛化是推动智能体适应复杂现实环境的核心研究方向。table_tasks_v2_gtdeltas数据集由HuggingFace的LeRobot项目团队构建，专注于桌面操作场景下的机器人控制任务。该数据集采集自Panda机械臂平台，包含20个完整交互序列，涵盖10种不同任务，旨在通过丰富的多视角视觉观测与精确的状态-动作对记录，为端到端策略学习提供高质量基准。其设计初衷在于解决机器人操作中从感知到动作的映射难题，尤其强调在非结构化环境中实现鲁棒且可泛化的行为策略，对推动具身智能与自主机器人系统的发展具有重要价值。

当前挑战

该数据集致力于应对机器人操作任务中的多模态感知与精细动作规划挑战，其核心在于从高维视觉输入中提取有效特征，并生成连续、稳定的关节控制指令。构建过程中面临诸多技术难题，包括多摄像头视角的时空同步、大规模交互数据的高效采集与存储，以及真实物理环境中传感器噪声与延迟的校准。此外，确保任务多样性以覆盖广泛操作场景，同时维持数据的一致性与标注准确性，亦是数据集构建的关键挑战。这些因素共同构成了在现实世界机器人学习应用中实现可靠性能提升的瓶颈。

常用场景

经典使用场景

在机器人学习领域，table_tasks_v2_gtdeltas数据集以其多视角视觉与状态动作对的丰富记录，成为模仿学习与强化学习算法验证的经典基准。该数据集通过Panda机械臂在桌面环境中执行多种任务，如抓取、放置等，提供了高频率的同步图像与机器人状态数据，使得研究者能够训练端到端的策略模型，模拟人类示教行为，从而优化机器人在复杂操作中的自主决策能力。

衍生相关工作

围绕该数据集，衍生了一系列经典研究工作，包括基于LeRobot框架的模仿学习算法优化、多模态融合策略探索以及跨任务泛化模型的构建。这些工作利用数据集中的视频与状态序列，开发了高效的策略蒸馏方法、视觉动作预测网络及渐进式学习系统，显著提升了机器人在动态环境中的操作精度与鲁棒性，为开源机器人社区提供了可复现的实验基准与创新灵感。

数据集最近研究