dataset-local-select-v0

Hugging Face2026-01-15 更新2026-01-16 收录

下载链接：

https://huggingface.co/datasets/Tsagkas/dataset-local-select-v0

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由LeRobot创建，包含机器人技术相关的数据。数据集结构包括动作、观察状态、手腕和前方摄像头的图像、时间戳和各种索引等特征。数据集包含40个片段，2403帧和2个任务，数据以parquet文件格式存储，视频以mp4格式存储。

创建时间：

2026-01-15

原始信息汇总

数据集概述

基本信息

数据集名称: dataset-local-select-v0
创建工具: LeRobot (https://github.com/huggingface/lerobot)
许可证: Apache-2.0
任务类别: 机器人学
标签: LeRobot

数据集规模

总任务数: 2
总回合数: 40
总帧数: 2403
帧率: 10 FPS
数据文件总大小: 100 MB
视频文件总大小: 200 MB
分块大小: 1000
代码库版本: v3.0
机器人类型: so101_follower

数据划分

训练集: 包含全部40个回合 (索引范围: 0:40)

数据结构与特征

数据以Parquet文件格式存储，视频以MP4格式存储。

数据文件路径模式

数据路径: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频路径: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

特征字段描述

动作 (action)
- 数据类型: float32
- 形状: [7]
- 维度名称: ee.x, ee.y, ee.z, ee.wx, ee.wy, ee.wz, ee.gripper_pos
观测状态 (observation.state)
- 数据类型: float32
- 形状: [7]
- 维度名称: ee.gripper_pos, ee.wx, ee.wy, ee.wz, ee.x, ee.y, ee.z
腕部图像观测 (observation.images.wrist)
- 数据类型: video
- 形状: [256, 256, 3] (高度，宽度，通道)
- 视频信息:
  - 高度: 256
  - 宽度: 256
  - 编解码器: av1
  - 像素格式: yuv420p
  - 是否为深度图: false
  - 帧率: 10
  - 通道数: 3
  - 包含音频: false
前部图像观测 (observation.images.front)
- 数据类型: video
- 形状: [256, 256, 3] (高度，宽度，通道)
- 视频信息: (与腕部图像观测相同)
时间戳 (timestamp)
- 数据类型: float32
- 形状: [1]
- 维度名称: null
帧索引 (frame_index)
- 数据类型: int64
- 形状: [1]
- 维度名称: null
回合索引 (episode_index)
- 数据类型: int64
- 形状: [1]
- 维度名称: null
索引 (index)
- 数据类型: int64
- 形状: [1]
- 维度名称: null
任务索引 (task_index)
- 数据类型: int64
- 形状: [1]
- 维度名称: null

引用信息

主页: [More Information Needed]
论文: [More Information Needed]
BibTeX引用: [More Information Needed]

搜集汇总

数据集介绍

构建方式

在机器人学习领域，高质量的数据集对于模型训练至关重要。dataset-local-select-v0数据集依托LeRobot框架构建，专门针对机器人操作任务设计。该数据集通过采集真实机器人执行任务时的交互数据，涵盖了40个完整的情节，总计2403帧数据。数据以分块形式存储于Parquet文件中，每块包含1000帧，确保了高效的数据读取与处理。同时，数据集还附带了同步录制的视频文件，分别从前置和腕部视角捕捉了机器人执行动作的视觉信息，帧率为每秒10帧，为机器人视觉-动作联合建模提供了丰富的多模态数据源。

特点

该数据集在机器人操作数据集中展现出鲜明的技术特色。其核心特征在于提供了精细的动作与状态表征，动作空间包含末端执行器的三维位置、三维旋转及夹爪开合度共7个维度，状态观测则整合了相同的7维机器人本体信息。视觉观测方面，数据集提供了分辨率为256x256的三通道RGB视频，从前置和腕部双视角同步记录，编码格式为AV1，兼顾了视觉质量与存储效率。数据结构上，通过帧索引、情节索引和任务索引等多层次标识，支持对长序列任务进行灵活的数据切片与重组，便于不同粒度的分析与模型训练。

使用方法

对于希望利用该数据集的研究者，其使用流程清晰而高效。数据集以标准化的Parquet格式组织，可通过Hugging Face数据集库或兼容框架直接加载。在具体应用中，用户可依据`meta/info.json`中的结构定义，访问动作、状态观测、视觉图像及各类索引字段。数据已预设训练集划分，涵盖全部40个情节，适用于机器人模仿学习、强化学习或行为克隆等任务的模型训练。加载后，研究者可方便地按帧、按情节或按任务提取数据，并结合同步视频进行多模态学习算法的开发与验证。

背景与挑战

背景概述

在机器人学习领域，模仿学习与强化学习的研究依赖于高质量、大规模的真实世界交互数据。dataset-local-select-v0数据集由LeRobot项目创建，该项目致力于推动开源机器人学习框架的发展。该数据集聚焦于机器人操作任务，具体针对so101_follower型机器人，采集了包含末端执行器动作、状态观测以及多视角视觉信息在内的时序交互数据。其构建旨在为机器人策略学习提供丰富的离线训练资源，通过整合动作指令、关节状态与视觉感知，支持端到端控制模型的开发，进而促进机器人自主执行复杂操作任务的能力。

当前挑战

该数据集致力于解决机器人操作任务中的模仿学习与策略泛化问题，其核心挑战在于如何从有限的演示数据中学习鲁棒且可迁移的控制策略。具体而言，数据集中仅包含40个训练片段，样本规模相对有限，可能制约模型在未见场景下的泛化性能。同时，数据构建过程面临多模态对齐的复杂性，需确保动作指令、机器人状态与前端及腕部视觉流在时序上精确同步。此外，真实世界数据的采集易受环境干扰与传感器噪声影响，维持数据的一致性与质量亦是重要挑战。

常用场景

经典使用场景

在机器人学习领域，dataset-local-select-v0数据集为模仿学习与强化学习算法提供了宝贵的训练资源。该数据集通过记录机器人末端执行器的位置、姿态、夹爪状态以及多视角图像观测，构建了丰富的交互轨迹。研究人员能够利用这些轨迹训练策略模型，使机器人学习执行如抓取、放置等基础操作任务，从而在仿真或真实环境中实现行为模仿与技能泛化。

衍生相关工作

围绕该数据集，学术界衍生出一系列经典研究工作，主要集中在视觉运动策略学习领域。例如，基于行为克隆或离线强化学习的算法常利用此类数据进行模型预训练与微调。此外，该数据集也促进了多任务学习、领域自适应以及仿真到真实迁移等方法的研究，为构建通用机器人操作技能库提供了关键的数据支撑与评估基准。

数据集最近研究