record-test

Hugging Face2025-10-30 更新2025-10-31 收录

下载链接：

https://huggingface.co/datasets/hirotakaster/record-test

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个与机器人学相关的数据集，包含57个剧集和34010个帧，专注于一个任务。数据集以Parquet文件和视频文件的形式组织，包含机器臂关节位置等特征以及来自不同视角的图像。数据集遵循Apache-2.0许可证。

创建时间：

2025-10-30

原始信息汇总

数据集概述

基本信息

许可证: Apache-2.0
任务类别: 机器人技术
标签: LeRobot
创建工具: LeRobot (https://github.com/huggingface/lerobot)

数据集结构

数据规模

总回合数: 57
总帧数: 34010
总任务数: 1
数据文件大小: 100 MB
视频文件大小: 500 MB
帧率: 30 FPS

数据划分

训练集: 全部57个回合

文件结构

数据文件路径: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件路径: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4
分块大小: 1000

数据特征

动作特征 (action)

数据类型: float32
维度: 6
关节位置:
- shoulder_pan.pos
- shoulder_lift.pos
- elbow_flex.pos
- wrist_flex.pos
- wrist_roll.pos
- gripper.pos

观测状态 (observation.state)

数据类型: float32
维度: 6
关节位置:
- shoulder_pan.pos
- shoulder_lift.pos
- elbow_flex.pos
- wrist_flex.pos
- wrist_roll.pos
- gripper.pos

图像观测

顶部摄像头 (observation.images.top)

数据类型: 视频
分辨率: 480×640×3
视频编码: AV1
像素格式: yuv420p
帧率: 30 FPS
深度图: 否
音频: 无

腕部摄像头 (observation.images.wrist)

数据类型: 视频
分辨率: 480×640×3
视频编码: AV1
像素格式: yuv420p
帧率: 30 FPS
深度图: 否
音频: 无

索引特征

时间戳: float32, 维度1
帧索引: int64, 维度1
回合索引: int64, 维度1
索引: int64, 维度1
任务索引: int64, 维度1

技术信息

代码库版本: v3.0
机器人类型: so101_follower

引用信息

主页: 待补充
论文: 待补充
BibTeX引用: 待补充

搜集汇总

数据集介绍

构建方式

在机器人技术领域的数据采集过程中，record-test数据集通过LeRobot平台实现了系统化的构建。该数据集包含57个完整任务片段，总计34010帧数据，采用分块存储机制将数据划分为1000帧大小的区块。数据采集以30fps的帧率同步记录六自由度机械臂的关节位置信息和多视角视觉数据，所有数据以标准化parquet格式进行存储，确保了数据结构的统一性和访问效率。

特点

该数据集在机器人操作任务数据方面展现出显著的多模态特性，同时整合了机械臂的六维动作空间与双视角视觉观测。动作特征涵盖肩部平移、肩部抬升、肘部弯曲、腕部弯曲、腕部旋转及夹爪位置等完整关节控制维度，视觉数据则包含顶部视角和腕部视角的480x640分辨率彩色视频流。数据集采用AV1编码压缩视频数据，在保证视觉质量的同时有效控制存储容量，其层次化索引结构支持按任务片段和帧级别的精确数据检索。

使用方法

针对机器人模仿学习与行为克隆的研究需求，该数据集提供了标准化的数据加载接口。研究者可通过解析meta/info.json配置文件获取完整的数据结构定义，利用分块索引机制高效访问特定任务片段。训练集包含全部57个任务片段，支持端到端的策略学习 pipeline构建。多模态数据的时间对齐特性使得研究者能够同步利用关节状态观测与视觉信息进行模型训练，为机器人技能学习提供丰富的监督信号。

背景与挑战

背景概述

在机器人技术迅猛发展的背景下，record-test数据集作为LeRobot项目的重要组成部分应运而生，专注于机器人操作任务的演示数据收集。该数据集由HuggingFace机构基于Apache 2.0开源协议构建，采用SO101型跟随机器人平台，通过多模态传感器记录包括关节位置、视觉观测与时间序列在内的完整交互数据。其核心研究目标在于为模仿学习与强化学习算法提供真实环境下的训练基准，通过57个任务片段和超过3.4万帧的密集采样，有效推动机器人行为克隆与策略泛化能力的研究进程。

当前挑战

该数据集首要应对机器人操作任务中动作空间与观测空间的高维对齐难题，特别是在多视角视觉输入与连续关节控制信号的时序匹配方面存在显著挑战。数据构建过程中面临传感器同步精度保障、大规模视频数据压缩存储等技术瓶颈，同时需确保六自由度机械臂动作轨迹与双路视觉观测在30Hz采样频率下的时空一致性。此外，跨场景任务泛化需求与有限样本规模之间的矛盾，亦对数据集的代表性与扩展性提出更高要求。

常用场景

经典使用场景

在机器人学习领域，record-test数据集通过记录六自由度机械臂的关节位置与多视角视觉数据，为模仿学习算法提供了丰富的训练素材。其经典应用场景聚焦于机械臂轨迹规划任务的端到端学习，研究者可利用该数据集中的状态-动作序列与同步视觉反馈，构建从感知到控制的映射模型，推动机器人自主操作能力的发展。

衍生相关工作

基于该数据集的特性，学界衍生出多模态表征学习的系列研究，特别是视觉-动作联合嵌入模型的创新工作。这些研究通过解构数据集中的时空关联特征，发展了跨模态注意力机制等新型网络架构，为后续的机器人终身学习范式奠定了理论基础。

数据集最近研究