Aasdfip/box_pretrain_2

Name: Aasdfip/box_pretrain_2
Creator: Aasdfip
Published: 2026-04-11 00:10:02
License: 暂无描述

Hugging Face2026-04-11 更新2026-04-12 收录

下载链接：

https://hf-mirror.com/datasets/Aasdfip/box_pretrain_2

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: apache-2.0 task_categories: - robotics tags: - LeRobot configs: - config_name: default data_files: data/*/*.parquet --- This dataset was created using [LeRobot](https://github.com/huggingface/lerobot). ## Dataset Description - **Homepage:** [More Information Needed] - **Paper:** [More Information Needed] - **License:** apache-2.0 ## Dataset Structure [meta/info.json](meta/info.json): ```json { "codebase_version": "v3.0", "robot_type": "bi_so_follower", "total_episodes": 5, "total_frames": 12806, "total_tasks": 1, "chunks_size": 1000, "data_files_size_in_mb": 100, "video_files_size_in_mb": 200, "fps": 30, "splits": { "train": "0:5" }, "data_path": "data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet", "video_path": "videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4", "features": { "action": { "dtype": "float32", "names": [ "left_shoulder_pan.pos", "left_shoulder_lift.pos", "left_elbow_flex.pos", "left_wrist_flex.pos", "left_wrist_roll.pos", "left_gripper.pos", "right_shoulder_pan.pos", "right_shoulder_lift.pos", "right_elbow_flex.pos", "right_wrist_flex.pos", "right_wrist_roll.pos", "right_gripper.pos" ], "shape": [ 12 ] }, "observation.state": { "dtype": "float32", "names": [ "left_shoulder_pan.pos", "left_shoulder_lift.pos", "left_elbow_flex.pos", "left_wrist_flex.pos", "left_wrist_roll.pos", "left_gripper.pos", "right_shoulder_pan.pos", "right_shoulder_lift.pos", "right_elbow_flex.pos", "right_wrist_flex.pos", "right_wrist_roll.pos", "right_gripper.pos" ], "shape": [ 12 ] }, "observation.images.left_wrist": { "dtype": "video", "shape": [ 480, 640, 3 ], "names": [ "height", "width", "channels" ], "info": { "video.height": 480, "video.width": 640, "video.codec": "av1", "video.pix_fmt": "yuv420p", "video.is_depth_map": false, "video.fps": 30, "video.channels": 3, "has_audio": false } }, "observation.images.right_wrist": { "dtype": "video", "shape": [ 480, 640, 3 ], "names": [ "height", "width", "channels" ], "info": { "video.height": 480, "video.width": 640, "video.codec": "av1", "video.pix_fmt": "yuv420p", "video.is_depth_map": false, "video.fps": 30, "video.channels": 3, "has_audio": false } }, "observation.images.right_top": { "dtype": "video", "shape": [ 480, 640, 3 ], "names": [ "height", "width", "channels" ], "info": { "video.height": 480, "video.width": 640, "video.codec": "av1", "video.pix_fmt": "yuv420p", "video.is_depth_map": false, "video.fps": 30, "video.channels": 3, "has_audio": false } }, "timestamp": { "dtype": "float32", "shape": [ 1 ], "names": null }, "frame_index": { "dtype": "int64", "shape": [ 1 ], "names": null }, "episode_index": { "dtype": "int64", "shape": [ 1 ], "names": null }, "index": { "dtype": "int64", "shape": [ 1 ], "names": null }, "task_index": { "dtype": "int64", "shape": [ 1 ], "names": null } } } ``` ## Citation **BibTeX:** ```bibtex [More Information Needed] ```

提供机构：

Aasdfip

搜集汇总

数据集介绍

构建方式

在机器人学习领域，高质量的数据集对于模型预训练至关重要。box_pretrain_2数据集依托LeRobot平台构建，通过记录双手机器人执行特定任务的过程，系统采集了多模态交互数据。数据以Parquet格式存储，并划分为多个块以优化访问效率，同时包含视频文件以记录视觉观察。整个数据集包含5个完整的情节，总计12806帧，以30帧每秒的速率采集，确保了时间序列的连贯性与真实性。

特点

该数据集的核心特点在于其丰富的多模态表示，不仅提供了机器人左右臂各六个关节的位置状态与动作指令，还整合了来自三个视角的高清视频流，包括左右腕部及顶部摄像头，分辨率均为640x480。数据结构设计严谨，每个特征均明确标注数据类型与形状，便于直接用于机器学习流水线。数据规模适中，兼顾了训练效率与信息密度，特别适合用于模仿学习或强化学习算法的开发与验证。

使用方法

研究人员可利用该数据集进行机器人控制策略的预训练或微调。通过加载Parquet文件，可以便捷地访问关节状态、动作序列及对应的时间戳与帧索引。配套的视频文件可通过指定路径读取，用于提取视觉特征或进行端到端的学习。数据集已预设训练划分，用户可直接将其导入训练框架，结合观察图像与状态信息，构建感知-动作映射模型，以推动双臂协调操作等复杂任务的研究。

背景与挑战

背景概述

在机器人学习领域，模仿学习与强化学习范式的发展亟需大规模、高质量的真实世界交互数据集作为支撑。box_pretrain_2数据集应运而生，其由HuggingFace的LeRobot项目团队创建，旨在为双臂仿人机器人（bi_so_follower）的预训练提供多模态交互数据。该数据集收录了机器人执行特定任务时的关节状态、多视角视觉观测（如左右腕部及顶部摄像头视频）以及对应的动作指令，核心研究问题聚焦于如何从异构传感器流中学习通用的机器人操作策略，以推动机器人自主执行复杂灵巧操作的能力。尽管其具体创建时间与论文信息暂未公开，但作为LeRobot生态系统的一部分，它代表了开源社区在构建标准化机器人数据集方面的重要努力，有望降低机器人学习的研究门槛并促进算法比较与复现。

当前挑战

该数据集致力于解决机器人操作任务中策略学习的核心挑战，即如何整合高维视觉观测与低维本体感知状态，并从中泛化出鲁棒且精确的控制策略。具体而言，其面临的领域问题挑战包括：处理动态环境中由多摄像头产生的异构、高维视觉数据流；以及学习在连续动作空间中实现双臂协调的精细操作。在构建过程中，挑战同样显著：真实机器人数据采集成本高昂，导致数据规模有限（仅包含5个任务片段）；确保多模态数据（关节状态与视频流）在时间上的精确同步与对齐；以及以高效格式（如Parquet）组织大规模视频与结构化数据，以支持流式加载与分布式训练。这些挑战共同指向了机器人学习在数据效率、表示学习与系统集成方面的前沿难题。

常用场景

经典使用场景

在机器人学习领域，box_pretrain_2数据集为双臂仿人机器人的预训练任务提供了关键支持。该数据集通过记录机器人执行特定任务时的关节位置、图像观察及时间序列数据，构建了一个多模态交互环境。研究人员可借此训练模型学习从视觉输入到动作输出的映射关系，尤其在模仿学习与强化学习框架下，数据集的高质量轨迹与同步视频为算法验证与性能提升奠定了坚实基础。

衍生相关工作

围绕该数据集，衍生出诸多经典研究工作，主要集中在机器人模仿学习与视觉运动策略学习领域。这些工作利用数据集的多模态特性，开发了结合卷积神经网络与循环神经网络的架构，以提升动作预测的准确性。此外，部分研究专注于从数据中提取可重用技能，促进了分层强化学习与元学习算法在机器人控制中的创新应用。

数据集最近研究