eunjuri/baseball_img_depth

Name: eunjuri/baseball_img_depth
Creator: eunjuri
Published: 2026-04-25 05:21:06
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/eunjuri/baseball_img_depth

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由LeRobot创建，包含与Unitree_G1_Inspire机器人相关的数据。数据集结构包括观察状态、动作、语言标记、图像、深度和时间戳等多种特征。数据集包含85个片段，20075帧和170个视频，帧率为30 fps。数据以parquet文件和mp4视频格式存储。

This dataset was created using LeRobot and contains data related to the Unitree_G1_Inspire robot. The dataset structure includes various features such as observation states, actions, language tokens, images, depths, and timestamps. The dataset consists of 85 episodes, 20075 frames, and 170 videos, with a frame rate of 30 fps. The data is stored in parquet files and videos in mp4 format.

提供机构：

eunjuri

搜集汇总

数据集介绍

构建方式

在机器人学习领域，高质量的数据集是推动具身智能体从感知到动作闭环演进的核心基石。baseball_img_depth 数据集正是基于这一需求，通过 LeRobot 框架构建而成。该数据集采集自一台 Unitree G1 Inspire 型机器人，共计包含 85 个完整操作回合（episode），涵盖 20075 帧时序数据，所有数据以 30 FPS 的帧率连续记录。每个回合的观测与动作轨迹均以 Parquet 格式存储于分块（chunk）目录下，便于大规模索引与分布式读取；同时，视觉与深度图像数据被编码为 AV1 格式的视频文件，按视频键分类存放。数据集构建时对机器人双臂的 26 个关节角度进行了均匀采样的状态记录，并通过自然语言标记（tokens）与注意力掩码为任务赋予语义描述，形成了一套多模态、带时间戳的完整示范集合。

特点

该数据集的突出特征在于其多模态感知与动作协作的结构化设计。观测空间融合了来自 cam_left_high 相机的 RGB 图像与对应的深度图（深度图也以三通道视频形式存储），分辨率达到 848×480，为视觉伺服与深度估计任务提供了充足的像素信息。状态空间精确映射了左右双臂的 13 个自由度（包括肩部、肘部、腕部及手指关节），动作空间与之同构，形成了 26 维的精准控制指令。特别地，每一帧均附带有语言 token 序列与注意力掩码，使得该数据集天然支持语言引导的模仿学习与多任务泛化研究。此外，数据集将全部 85 个回合划入训练集，无显式验证与测试划分，保证了示范样本的完全可用性，适合用于行为克隆等自监督学习范式。

使用方法

使用者可通过 LeRobot 库便捷地加载与操作此数据集。首先安装 LeRobot 并调用其数据加载模块，根据仓库路径指定数据集配置名（default）即可自动索引所有 Parquet 与视频文件。在训练流程中，用户可选择从 observation.state 提取 26 维关节特征作为输入状态，同时以 action 字段作为目标输出，构建端到端的策略网络。对于视觉模型，observation.images.cam_left_high 与 observation.depths.cam_left_high 提供了按时间对齐的帧序列，可配合 video 类型的编解码器（Codec）进行实时抽帧与增强。语言令牌字段（observation.language.tokens）为多模态融合提供了现成的嵌入入口，开发者可将其与视觉特征拼接后输入 Transformer 架构。注意，单任务设置（total_tasks=1）下所有 episode 共享同一任务索引，适合专注于单一操作技能的精细建模。

背景与挑战

背景概述

baseball_img_depth数据集由Hugging Face LeRobot社区构建，基于Unitree G1人形机器人（配备Inspire灵巧手）在棒球击球任务中采集的高保真人机交互数据。该数据集于2024年前后创建，聚焦于机器人视觉-触觉联合感知的细粒度操作问题，通过同步录制左右高清摄像头图像与深度图，并记录26维度关节角度及对应动作指令，为机器人模仿学习提供了兼具视觉语义与空间几何信息的训练基准。其开创性在于首次在公开数据集中融合了人形机器人双臂协同与深度感知，推动了具身智能领域从仿真到真实场景的迁移研究，尤其对动态物体交互任务（如挥棒击球）的模仿学习范式具有显著示范效应。

当前挑战

该数据集面临的核心挑战包括：1）领域问题层面，棒球击打属于高速动态任务，机器人需在毫秒级时间内融合多模态传感器（RGB图像、深度图、关节力矩）实时规划动作，这对模仿学习模型的时序对齐与噪声鲁棒性提出严苛要求；2）构建过程中，需解决人形机器人双臂运动学解耦难题——左右手各13个自由度（含手指弯曲与旋转）的联合控制导致数据采集复杂度指数上升，同时深度相机在金属反光环境下的精度衰减、以及85段示范片段（总计20075帧）中人工遥控操作的一致性维持，均为工程实现中的关键瓶颈。

常用场景

经典使用场景

在机器人操作与模仿学习的研究领域中，baseball_img_depth数据集为双臂灵巧操作任务提供了宝贵的实验基础。该数据集记录了Unitree G1机器人使用Inspire灵巧手进行棒球相关操作的85个完整回合，包含超过2万帧高保真数据。研究者可将多视角RGB图像与深度图作为视觉观测输入，结合26维关节状态与动作序列，训练能够从视觉感知直接映射到精细动作的端到端策略模型。数据集的高采样频率（30 FPS）与多模态特性使其特别适合应用于基于扩散策略、行为克隆或强化学习的机器人控制算法开发与验证。

实际应用

baseball_img_depth数据集在实际应用中展现出重要的转化潜力，尤其在工业装配与家庭服务机器人领域。例如，机器人可参照数据集中棒球抓取与操作的精细动作模式，学习如何自适应地抓取不同形状与材质的物品，完成诸如螺丝安装、零件分拣等精密制造任务。数据集中包含的深度图像输入使机器人能够准确感知物体三维形态与空间距离，这对仓储物流场景中的不规则包裹抓取、医疗场景中的手术器械递送均具有直接参考价值。此外，通过语言标记与视觉信息的关联，该数据集还可支撑基于自然语言指令的柔性机器人操控系统的开发，提升人机交互的自然性与效率。

衍生相关工作

基于baseball_img_depth数据集的研究催生了多项重要的衍生工作，推动了机器人学习领域的发展。首先，该数据集启发了多模态融合策略网络的设计，研究者通过引入跨模态注意力机制来联合处理视觉、深度与语言标记特征，显著提升了复杂操作任务的成功率。其次，数据集的发布促进了迁移学习与领域自适应技术在灵巧操作中的应用，例如将棒球操作中习得的抓取策略迁移至厨房工具或生活用品等新场景。此外，结合数据集的结构化格式，有学者开发了面向机器人学场景的高效数据增强框架与模拟到现实的域适应方法，这些工作在很大程度上扩展了该数据集的价值外延，成为后续人形机器人操作技能研究的重要基石。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集