dance_same_with_cam

Hugging Face2025-09-02 更新2025-09-03 收录

下载链接：

https://huggingface.co/datasets/kandj/dance_same_with_cam

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个机器人类数据集，包含5个视频片段，总计142帧，专注于一个任务。数据集以Apache-2.0许可证发布。数据集中的特征包括机器人臂的各个关节位置（肩部、肘部、手腕和夹爪），以及前视图的图像。每个视频片段的帧率为5fps，视频格式为av1编码的yuv420p。

This is a robotic dataset containing 5 video clips, totaling 142 frames and focused on a single task. The dataset is released under the Apache-2.0 license. Features included in the dataset are joint positions of the robotic arm (shoulder, elbow, wrist and gripper), as well as images captured from the front view. The frame rate of each video clip is 5fps, and the video format is AV1-encoded YUV420p.

创建时间：

2025-08-31

原始信息汇总

数据集概述

基本信息

许可证: Apache-2.0
任务类别: 机器人学
标签: LeRobot

数据集结构

总任务数: 1
总视频数: 5
总帧数: 142
总片段数: 1
片段大小: 1000
帧率: 5 FPS
分割: 训练集包含所有5个片段

数据特征

动作特征

数据类型: float32
形状: [6]
名称: shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, gripper.pos

观测状态特征

数据类型: float32
形状: [6]
名称: shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, gripper.pos

前视图像观测特征

数据类型: 视频
形状: [1080, 1920, 3]
名称: height, width, channels
视频信息:
- 高度: 1080像素
- 宽度: 1920像素
- 编解码器: av1
- 像素格式: yuv420p
- 是否为深度图: 否
- 帧率: 5 FPS
- 通道数: 3
- 包含音频: 否

其他特征

时间戳: float32类型，形状[1]
帧索引: int64类型，形状[1]
片段索引: int64类型，形状[1]
索引: int64类型，形状[1]
任务索引: int64类型，形状[1]

数据存储

数据文件路径: data/chunk-{episode_chunk:03d}/episode_{episode_index:06d}.parquet
视频文件路径: videos/chunk-{episode_chunk:03d}/{video_key}/episode_{episode_index:06d}.mp4

创建信息

代码库版本: v2.1
机器人类型: so101_follower
创建工具: LeRobot (https://github.com/huggingface/lerobot)

搜集汇总

数据集介绍

构建方式

在机器人技术领域，dance_same_with_cam数据集通过LeRobot框架精心构建，采用实际机器人操作场景中的连续动作捕捉方式。该数据集记录了5个完整操作片段，涵盖142帧数据，以5fps的采样率采集了SO101型跟随机器人的多模态交互信息。数据以分块形式存储于Parquet格式文件中，每个数据块包含机器人的关节状态、视觉观察及时间戳等同步信息，确保了数据的高效存取与完整性。

特点

该数据集的核心特征体现在其多模态数据结构的深度融合，不仅包含6自由度机械臂的关节位置动作向量，还同步采集了1080p高清前端视觉观测视频流。数据维度设计科学，动作与状态观测采用相同命名空间的浮点型数组，便于算法对齐分析。视频数据采用AV1编码压缩，在保持视觉保真度的同时显著降低存储需求，且所有数据帧均附带精确的时间索引与任务上下文标记。

使用方法

研究人员可通过解析Parquet数据文件获取结构化机器人操作数据，其中动作向量可直接用于强化学习策略训练，高清视频流适合视觉表征学习研究。数据集已预设训练集划分，支持端到端的模仿学习与行为克隆算法验证。使用时应注重时序数据的连续性特征，利用帧索引和时戳字段实现多模态数据对齐，同时可结合LeRobot生态工具进行可视化分析与模型部署。

背景与挑战

背景概述

机器人学习领域近年来在模仿学习与视觉运动控制方面取得了显著进展，dance_same_with_cam数据集作为LeRobot项目的重要组成部分，专注于机械臂动作模仿任务。该数据集由HuggingFace团队基于Apache 2.0许可证构建，采用so101_follower型机器人采集多模态数据，包含关节位置状态、前端视觉观测及时间戳信息，为机器人行为克隆与强化学习算法提供了高质量的训练基准。

当前挑战

该数据集致力于解决机器人视觉运动模仿的核心难题，包括从高维视觉输入到低维动作空间的映射、跨模态时序对齐以及动作轨迹的平滑性保证。在构建过程中面临多传感器数据同步采集的技术挑战，需要精确校准视觉系统与机械臂控制系统的时间戳；同时处理1080p高清视频流与6自由度关节数据的实时存储与压缩，确保数据完整性且符合parquet格式的序列化要求。

常用场景

经典使用场景

在机器人行为学习领域，该数据集通过记录六自由度机械臂的关节位置与视觉观测数据，为模仿学习算法提供了高质量的演示轨迹。研究者可利用其同步采集的关节运动参数与前端摄像头视频流，训练机器人复现人类操作者的动作模式，实现精细化的动作映射与技能传递。

解决学术问题

该数据集有效解决了机器人模仿学习中多模态数据对齐与动作表征的学术难题。通过提供精确的时间戳同步机制和标准化的数据格式，支持研究者开发跨模态的感知-动作耦合模型，显著提升了行为克隆与逆强化学习算法的训练效率与泛化能力。

衍生相关工作

基于该数据集的多模态特性，已衍生出多项关于时空动作建模的经典研究。包括基于视觉-动作联合嵌入的跨模态表示学习框架、结合注意力机制的动态动作分割算法，以及适用于稀疏奖励环境的层次化模仿学习架构，这些工作显著推动了机器人技能学习领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集