eval_two-cam-record-test

Hugging Face2026-05-31 更新2026-06-01 收录

下载链接：

https://huggingface.co/datasets/alimerido/eval_two-cam-record-test

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个用于机器人任务的开源数据集，使用LeRobot框架创建。数据集以Parquet文件格式存储，并附有对应的视频文件。数据规模包含6个完整的情节（episodes），总计4746帧数据，所有数据均划分为训练集。数据内容主要围绕一个名为so_follower的机器人平台。数据集的核心字段包括：1) 动作（action）：一个6维浮点向量，表示机器人六个关节（肩部平移、肩部抬升、肘部弯曲、腕部弯曲、腕部旋转、夹爪）的位置指令。2) 状态观测（observation.state）：一个与动作维度相同的6维浮点向量，表示机器人关节的当前状态位置。3) 图像观测（observation.images）：包含两个固定视角（front-正面, side-侧面）的RGB视频流，每帧图像分辨率为640x480，帧率为15 FPS，使用H.264编码。4) 元数据：包括时间戳（timestamp）、帧索引（frame_index）、情节索引（episode_index）、任务索引（task_index）等，用于标识数据在序列中的位置。该数据集适用于机器人模仿学习、强化学习、行为克隆等任务的研究与开发，提供了动作、状态和多视角视觉观测的同步时序数据。数据集采用Apache-2.0许可证。

This is an open-source dataset for robotic tasks, developed using the LeRobot framework. The dataset is stored in Parquet file format, with corresponding video files attached. It contains 6 complete episodes, totaling 4746 frames of data, and all data is split into the training set. The dataset mainly focuses on a robotic platform named 'so_follower'. The core fields of the dataset are as follows: 1) **Action**: A 6-dimensional floating-point vector representing the position commands for the robot's six joints (shoulder translation, shoulder lift, elbow flexion, wrist flexion, wrist rotation, gripper). 2) **State Observation (observation.state)**: A 6-dimensional floating-point vector with the same dimension as the action, representing the current positional state of the robot's joints. 3) **Image Observation (observation.images)**: Contains RGB video streams from two fixed viewpoints (front and side). Each frame has a resolution of 640x480, a frame rate of 15 FPS, and uses H.264 encoding. 4) **Metadata**: Includes timestamp, frame_index, episode_index, task_index and other information, used to identify the position of data in the sequence. This dataset is applicable to the research and development of robotic imitation learning, reinforcement learning, behavioral cloning and other tasks, providing synchronized temporal data of actions, states and multi-view visual observations. The dataset is licensed under Apache-2.0.

创建时间：

2026-05-31

原始信息汇总

数据集概述

名称: eval_two-cam-record-test
许可证: Apache-2.0
任务类别: 机器人学 (robotics)
标签: LeRobot

数据集来源与用途

该数据集使用 LeRobot 创建，适用于机器人相关任务。
提供可视化入口：可在可视化空间查看数据集内容。

数据集规模与结构

总片段数 (episodes): 6
总帧数 (frames): 4746
总任务数 (tasks): 1
帧率 (fps): 15
数据文件大小: 约 100 MB
视频文件大小: 约 200 MB
数据集切分: 训练集包含全部 6 个片段（train: "0:6"）

数据格式与存储

数据路径: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频路径: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4
代码库版本: v3.0

特征 (Features)

特征名	数据类型	形状	说明
`action`	float32	(6,)	6维动作指令：肩部旋转、肩部升降、肘部弯曲、腕部弯曲、腕部旋转、夹爪
`observation.state`	float32	(6,)	6维观察状态，与动作维度命名一致
`observation.images.front`	video (h264)	(480, 640, 3)	前置摄像头视频，分辨率480x640，RGB 3通道，15fps，无音频
`observation.images.side`	video (h264)	(480, 640, 3)	侧置摄像头视频，分辨率480x640，RGB 3通道，15fps，无音频
`timestamp`	float32	(1,)	时间戳
`frame_index`	int64	(1,)	帧索引
`episode_index`	int64	(1,)	片段索引
`index`	int64	(1,)	全局索引
`task_index`	int64	(1,)	任务索引

机器人类型

机器人类型: so_follower

搜集汇总

数据集介绍

构建方式

该数据集是基于LeRobot框架构建的机器人操作演示数据集，旨在为模仿学习提供高质量的观测与动作记录。通过双摄像头（前视与侧视）以15帧每秒的采样频率同步采集图像视频流，同时记录机械臂六个关节的位置状态与相应的动作指令。数据以Parquet格式存储结构化的时序信息，并配有H.264编码的MP4视频文件，整体包含6个完整演示片段，共计4746帧，覆盖单任务场景。数据集遵循Apache-2.0开源协议，并已划分好训练集，便于研究人员直接使用。

使用方法

用户可借助LeRobot提供的工具链轻松加载与可视化该数据集。通过Hugging Face Spaces上的专用可视化界面，能够直接预览各演示片段的视频内容与状态序列。在编程应用中，推荐使用LeRobot数据集API读取Parquet文件与对应的视频帧，构建适用于模仿学习或行为克隆的训练管线。数据已按6个片段全部划入训练集，开发者可基于其结构化的‘action’与‘observation.state’字段设计策略网络，并利用双摄像头图像进行端到端的任务学习。

背景与挑战

背景概述

本数据集名为eval_two-cam-record-test，创建于LeRobot框架之上，由Hugging Face团队及其社区贡献者开发。该数据集聚焦于机器人模仿学习领域，核心研究问题在于如何利用双摄像头视觉信息驱动机械臂执行精细操作任务。数据集包含6个完整演示片段，总计4746帧，记录了so_follower型机器人从肩部到夹爪的6维关节动作，并同步采集了正面与侧面两个视角的640×480像素视频流。作为LeRobot生态中的标准化测试集，它填补了机器人操作数据集中多视角视觉与动作序列严格对齐的空白，为行为克隆、逆强化学习等算法提供了可复现的基准，对促进机器人灵巧操作领域研究的可比较性具有重要价值。

当前挑战

该数据集应对的领域挑战包括：机器人操作任务中视觉观测与动作执行之间存在的高维时序依赖关系，以及单视角摄像机因深度模糊、遮挡等问题导致的感知不充分。在构建层面，挑战集中于多模态数据的时间戳严格同步——需确保15帧/秒的视频流与50Hz的控制信号达到亚毫秒级对齐；此外，机械臂6维动作空间（含夹爪开合）的连续控制特性要求高精度标定，而仅有6个示范片段的小样本规模又对算法的泛化能力提出了严苛考验。数据传输与存储上，200MB视频与100MB序列文件的分块压缩格式也增加了高效加载与在线训练的工程复杂性。

常用场景

经典使用场景

在机器人学习领域，该数据集专为模仿学习与行为克隆任务而设计，尤其适用于双臂或单臂机器人从视觉输入中学习精细操作。借助同步采集的前置与侧置双摄像头视频流，以及包含六自由度关节位置与夹爪状态的完整动作序列，研究者可构建端到端的视觉-运动控制策略。其以15帧/秒的采样频率记录的4746帧数据，为训练深度神经网络以复现示教轨迹提供了理想的低噪声基准，是验证模仿学习算法在真实机器人平台上可行性的经典范例。

解决学术问题

该数据集精准回应了机器人领域中‘如何从少量示教样本中高效泛化技能’的核心难题。通过提供经过时序对齐的视觉与运动模态数据，它使研究者能够专注于探索视觉表征学习中的域迁移问题，以及因果推理在动作序列生成中的应用。尤为重要的是，其包含的6个完整演示回合为少样本学习场景提供了可复现的实验环境，推动了关于‘数据效率与策略鲁棒性如何权衡’的学术讨论，并启发了诸如动作分块与隐式行为克隆等前沿范式。

实际应用

在工业与家庭服务场景中，该数据集可赋能机械臂快速掌握如零件抓取、螺丝旋拧等精密装配任务。借助双摄像头带来的空间感知优势，机器人系统能自适应不同光照与遮挡条件，实现从示范到自主执行的平滑过渡。此外，其轻量级的数据结构尤其适合边缘计算环境，便于将已学习的策略直接部署至低成本协作机器人上，从而降低中小企业引入柔性自动化生产线的门槛，推动‘即示教即生产’理念的落地。

数据集最近研究