test13

Hugging Face2026-03-31 更新2026-04-01 收录

下载链接：

https://huggingface.co/datasets/zijian2022/test13

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是使用LeRobot创建的，专为机器人技术领域设计，采用Apache-2.0许可证。数据集包含1个总剧集、324帧和1个任务，数据文件大小为100MB，视频文件大小为200MB，帧率为30fps。数据以parquet格式存储，视频以mp4格式存储。数据集结构详细描述了动作、观察状态、观察图像（前和后）、时间戳、帧索引、剧集索引、索引和任务索引等字段，包括它们的数据类型、形状和名称。观察图像的分辨率为480x640，3通道，视频编码为av1，像素格式为yuv420p，无音频。该数据集适用于机器人控制和视觉任务的研究和应用。

This dataset was developed using LeRobot, specifically tailored for the robotics field, and is licensed under the Apache-2.0 license. It contains 1 total episode, 324 frames, and 1 task. The total size of the data files is 100 MB, while the video files are 200 MB with a frame rate of 30 fps. The structured data is stored in Parquet format, and the videos are stored in MP4 format. The dataset structure comprehensively details fields including actions, observation states, front and rear observation images, timestamps, frame indices, episode indices, indices and task indices, along with their respective data types, shapes and names. The observation images have a resolution of 480x640 with 3 channels; the videos are encoded with AV1, adopt the yuv420p pixel format, and contain no audio. This dataset is suitable for research and applications related to robot control and vision tasks.

创建时间：

2026-03-29

原始信息汇总

数据集概述

基本描述

任务类别：机器人学
标签：LeRobot
许可证：Apache 2.0
创建工具：使用LeRobot创建

数据集结构

配置名称：default
数据文件：data/*/*.parquet
代码库版本：v3.0
机器人类型：so100_follower
总情节数：1
总帧数：324
总任务数：1
块大小：1000
数据文件大小：100 MB
视频文件大小：200 MB
帧率：30 fps
数据分割：训练集（train）包含所有数据（"0:1"）
数据文件路径模式：data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件路径模式：videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

数据特征

动作（action）：
- 数据类型：float32
- 形状：[6]
- 名称：shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, gripper.pos
观测状态（observation.state）：
- 数据类型：float32
- 形状：[6]
- 名称：shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, gripper.pos
前视图像观测（observation.images.front）：
- 数据类型：video
- 形状：[480, 640, 3]
- 名称：height, width, channels
- 信息：
  - 视频高度：480
  - 视频宽度：640
  - 视频编解码器：av1
  - 像素格式：yuv420p
  - 是否为深度图：false
  - 帧率：30 fps
  - 通道数：3
  - 是否包含音频：false
后视图像观测（observation.images.back）：
- 数据类型：video
- 形状：[480, 640, 3]
- 名称：height, width, channels
- 信息：
  - 视频高度：480
  - 视频宽度：640
  - 视频编解码器：av1
  - 像素格式：yuv420p
  - 是否为深度图：false
  - 帧率：30 fps
  - 通道数：3
  - 是否包含音频：false
时间戳（timestamp）：
- 数据类型：float32
- 形状：[1]
帧索引（frame_index）：
- 数据类型：int64
- 形状：[1]
情节索引（episode_index）：
- 数据类型：int64
- 形状：[1]
索引（index）：
- 数据类型：int64
- 形状：[1]
任务索引（task_index）：
- 数据类型：int64
- 形状：[1]

补充信息

主页：信息缺失
论文：信息缺失
引用BibTeX：信息缺失

搜集汇总

数据集介绍

构建方式

在机器人学领域，数据集的构建往往依赖于真实世界的交互记录。test13数据集通过LeRobot平台精心采集，涵盖了单次任务执行的全过程，共包含324帧数据，以30帧每秒的速率记录。数据以分块形式存储于Parquet文件中，每块容量设定为1000帧，确保了高效的数据管理与读取。视频数据采用AV1编码，分辨率统一为640x480，同时记录了机器人关节状态与时间戳，形成了多模态的时序数据流。

特点

该数据集展现了机器人操作任务中典型的多模态特性，融合了视觉感知与状态控制信息。其前端与后端摄像头同步捕获480x640分辨率的RGB视频，提供了丰富的环境视角。机器人关节的六维位置数据以浮点形式精确记录，涵盖了从肩部旋转到夹爪开合的全套动作维度。数据结构层次分明，通过帧索引、任务索引与时间戳实现了细粒度的时序对齐，为模仿学习与行为克隆研究提供了扎实的数据基础。

使用方法

研究者可利用该数据集进行机器人策略学习与行为分析。数据以标准Parquet格式组织，支持通过HuggingFace数据集库直接加载，训练集涵盖全部可用片段。使用时需注意数据分块机制，依据chunk索引与文件索引定位具体数据段。视频流可通过指定路径解码，结合同步的状态观测与动作标签，构建状态-动作对序列。该数据集适用于端到端视觉运动策略训练、多视角感知融合以及时序预测模型的开发与验证。

背景与挑战

背景概述

在机器人学习领域，高质量、大规模的数据集是推动模仿学习与强化学习算法发展的关键基石。test13数据集依托LeRobot开源框架构建，专注于机器人操作任务的数据采集与共享。该数据集由HuggingFace社区发布，采用Apache 2.0开源协议，旨在为机器人控制研究提供结构化的多模态交互数据。其核心研究问题聚焦于如何通过真实世界的机器人状态观测与动作序列，训练出能够泛化至复杂场景的智能体。尽管数据集的具体创建时间与主要研究人员信息尚未公开，但其采用的标准化数据格式与丰富的特征维度，为机器人感知-决策一体化模型的开发提供了重要支撑，有望促进开源机器人生态的协同创新。

当前挑战

test13数据集致力于解决机器人模仿学习中的动作序列预测与状态感知融合问题，其核心挑战在于如何从有限的任务演示中提取可泛化的策略。具体而言，机器人操作任务往往涉及高维连续动作空间与多模态观测输入，数据集中包含的关节位置控制指令与前后视角视觉信息，需在时序对齐与特征提取层面克服维度灾难与模态异构性。在构建过程中，数据采集面临真实机器人硬件稳定性、传感器同步精度以及任务场景多样性的制约；同时，数据标注与清洗需确保动作指令的物理可行性，并处理视频流压缩带来的信息损失，这些因素共同构成了数据集质量提升与规模扩展的实质性障碍。

常用场景

经典使用场景

在机器人学领域，test13数据集以其多模态特性为机器人控制算法的训练与验证提供了经典场景。该数据集整合了来自so100_follower机器人的关节位置状态、前后摄像头视频流及时间戳信息，构建了一个完整的机器人操作环境。研究者通常利用这些同步记录的动作与观测数据，开发端到端的模仿学习或强化学习模型，使机器人能够从视觉输入中推断出精确的关节控制指令，从而完成特定的跟随或操作任务。

衍生相关工作

围绕test13这类机器人数据集，学术界衍生出诸多经典研究工作。例如，基于类似多模态数据结构的模仿学习框架，如行为克隆（BC）与逆强化学习（IRL），被广泛用于学习复杂的操作策略。同时，它也促进了视觉-动作表征学习模型的发展，这些模型旨在从视频流中提取更具泛化性的特征，以提升策略在未见场景中的适应性，为后续大规模机器人数据集的构建与标准化奠定了方法论基础。

数据集最近研究