task_ch_1

Hugging Face2026-04-09 更新2026-04-10 收录

下载链接：

https://huggingface.co/datasets/taikonauts/task_ch_1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个机器人学数据集，使用LeRobot创建。数据集包含15个episodes，总计6836帧数据，涉及1个任务。数据以parquet格式存储，总数据文件大小为100MB，视频文件大小为500MB。数据采集频率为30fps。数据集包含动作数据（7维浮点向量，包括位置、姿态和夹持器状态）和观测数据（包括状态信息和来自前视摄像头、夹持器鱼眼摄像头和夹持器彩色摄像头的视频数据）。视频数据采用AV1编码，分辨率和格式各不相同。数据集适用于机器人控制、视觉伺服等研究任务，采用Apache 2.0许可证。

创建时间：

2026-04-08

原始信息汇总

数据集概述

基本信息

数据集名称: task_ch_1
创建工具: LeRobot (https://github.com/huggingface/lerobot)
许可协议: Apache 2.0
任务类别: 机器人学
标签: LeRobot

数据集规模与结构

总任务数: 3
总情节数: 134
总帧数: 45912
数据块大小: 1000帧
数据文件大小: 100 MB
视频文件大小: 500 MB
帧率: 30 FPS
数据分割: 全部数据（0:134）用于训练

数据特征

数据集包含以下特征：

动作

数据类型: float32
形状: [7]
维度名称: x, y, z, roll, pitch, yaw, gripper.pos

观测状态

数据类型: float32
形状: [7]
维度名称: x, y, z, roll, pitch, yaw, gripper.pos

观测图像

1. 前视图像

数据类型: 视频
形状: [1080, 1920, 3]
维度名称: height, width, channels
视频信息:
- 高度: 1080
- 宽度: 1920
- 编解码器: av1
- 像素格式: yuv420p
- 是否为深度图: 否
- 帧率: 30
- 通道数: 3
- 包含音频: 否

2. 鱼眼夹爪图像

数据类型: 视频
形状: [480, 640, 3]
维度名称: height, width, channels
视频信息:
- 高度: 480
- 宽度: 640
- 编解码器: av1
- 像素格式: yuv420p
- 是否为深度图: 否
- 帧率: 30
- 通道数: 3
- 包含音频: 否

3. 彩色夹爪图像

数据类型: 视频
形状: [480, 640, 3]
维度名称: height, width, channels
视频信息:
- 高度: 480
- 宽度: 640
- 编解码器: av1
- 像素格式: yuv420p
- 是否为深度图: 否
- 帧率: 30
- 通道数: 3
- 包含音频: 否

元数据

时间戳: float32, 形状 [1]
帧索引: int64, 形状 [1]
情节索引: int64, 形状 [1]
索引: int64, 形状 [1]
任务索引: int64, 形状 [1]

文件路径格式

数据文件: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

技术信息

代码库版本: v3.0
机器人类型: xarm_end_effector

缺失信息

主页: 未提供
论文: 未提供
引用格式: 未提供

搜集汇总

数据集介绍

构建方式

在机器人操作领域，高质量的数据集对于训练智能体至关重要。task_ch_1数据集依托LeRobot平台构建，通过xarm末端执行器机器人采集了134个完整操作序列，共计45912帧数据，涵盖3项具体任务。数据以分块形式存储，每块包含1000帧，整体数据文件约100MB，视频文件约500MB，采样频率为30帧每秒。该数据集采用Parquet格式高效组织观测与动作信息，确保了数据的结构化与可扩展性。

特点

该数据集在机器人感知与控制方面展现出多维融合的特点。其观测部分整合了机器人末端执行器的七维状态信息，包括位置、姿态与夹爪开合度，同时提供了三路视觉输入：前方全局视角的1080p高清视频、夹爪鱼眼镜头与彩色镜头的480p局部影像。这些多模态数据以30fps同步录制，编码为AV1格式，既保障了视觉细节的丰富性，又兼顾了存储效率。数据集中每个帧均标注了时间戳、帧索引与任务索引，为时序分析与任务特定研究提供了坚实基础。

使用方法

研究人员可借助该数据集推进机器人模仿学习与强化学习算法的开发。数据集已预分为训练集，包含全部134个序列，用户可通过LeRobot工具链直接加载Parquet文件与对应MP4视频。数据访问遵循Apache 2.0许可，支持灵活的研究与商用场景。典型使用流程包括：解析特征字典中的动作与观测张量，结合视频流重建机器人操作场景，并利用时间戳与任务索引进行序列建模或跨任务泛化研究。

背景与挑战

背景概述

在机器人学习领域，高质量的真实世界交互数据对于推动端到端策略学习至关重要。task_ch_1数据集由HuggingFace的LeRobot项目创建，专注于机械臂操作任务，旨在为机器人模仿学习与强化学习提供丰富的多模态轨迹数据。该数据集采集自xArm末端执行器平台，包含134个完整交互片段，涵盖三种不同任务，整合了高维动作指令、精确的末端状态观测以及多视角视觉信息，为研究复杂环境下的机器人感知与控制一体化提供了重要基准。

当前挑战

该数据集致力于解决机器人操作任务中端到端策略学习的核心难题，即如何从高维异构传感器数据中有效提取特征并生成精确控制指令。构建过程中的挑战包括多模态数据的时间同步与对齐、大规模视频数据的高效压缩存储，以及真实物理交互中不可避免的噪声与不确定性。此外，确保数据集的多样性以覆盖任务变体，同时维持标注的一致性与轨迹的连贯性，也是数据集构建面临的关键技术障碍。

常用场景

经典使用场景

在机器人学习领域，task_ch_1数据集以其丰富的多模态观测数据，成为训练端到端机器人控制模型的经典资源。该数据集通过整合机械臂末端执行器的状态信息、高清前视图像以及夹爪视角的视觉数据，为模仿学习与强化学习算法提供了高质量的演示轨迹。研究者能够利用这些同步记录的动作与观测序列，构建从视觉感知到连续动作映射的预测模型，从而模拟人类操作员的灵巧控制策略。

衍生相关工作

围绕task_ch_1数据集，学术界衍生了一系列专注于视觉-动作联合建模的经典工作。这些研究探索了基于Transformer的序列预测架构、分层强化学习框架以及多任务学习范式，以提升策略的样本效率与泛化性能。部分工作进一步利用该数据集进行仿真到真实世界的迁移学习验证，推动了机器人学习算法在真实物理系统中的实用化进程。

数据集最近研究