tiny

Hugging Face2025-08-01 更新2025-08-02 收录

下载链接：

https://huggingface.co/datasets/lbxa/tiny

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集使用LeRobot创建，用于机器人学任务，包含多个视频片段，每个片段包含多个帧，总共有2个情节，1786个帧，1个任务和4个视频。数据集的结构包括行动、观察状态、顶部和前部图像、时间戳、帧索引、情节索引、索引和任务索引等特征。所有数据均以Apache-2.0许可证授权。

创建时间：

2025-07-31

原始信息汇总

数据集概述

基本信息

许可证: apache-2.0
任务类别: 机器人学 (robotics)
标签: LeRobot, so101

数据集描述

创建工具: LeRobot
主页: [More Information Needed]
论文: [More Information Needed]

数据集结构

数据文件格式: parquet
配置名称: default
数据文件路径: data//.parquet

元数据信息 (meta/info.json)

代码库版本: v2.1
机器人类型: so101
总片段数: 2
总帧数: 1786
总任务数: 1
总视频数: 4
总块数: 1
块大小: 1000
帧率 (fps): 30
分割:
- 训练集: "0:2"
数据路径: data/chunk-{episode_chunk:03d}/episode_{episode_index:06d}.parquet
视频路径: videos/chunk-{episode_chunk:03d}/{video_key}/episode_{episode_index:06d}.mp4

特征

动作 (action):
- 数据类型: float32
- 形状: [6]
- 名称: main_shoulder_pan, main_shoulder_lift, main_elbow_flex, main_wrist_flex, main_wrist_roll, main_gripper
观测状态 (observation.state):
- 数据类型: float32
- 形状: [6]
- 名称: 同动作特征
观测图像 (observation.images.top 和 observation.images.front):
- 数据类型: video
- 形状: [480, 640, 3]
- 名称: height, width, channels
- 视频信息:
  - 高度: 480
  - 宽度: 640
  - 编码: av1
  - 像素格式: yuv420p
  - 是否为深度图: false
  - 帧率: 30
  - 通道数: 3
  - 是否有音频: false
时间戳 (timestamp):
- 数据类型: float32
- 形状: [1]
帧索引 (frame_index):
- 数据类型: int64
- 形状: [1]
片段索引 (episode_index):
- 数据类型: int64
- 形状: [1]
索引 (index):
- 数据类型: int64
- 形状: [1]
任务索引 (task_index):
- 数据类型: int64
- 形状: [1]

引用

BibTeX: [More Information Needed]

搜集汇总

数据集介绍

构建方式

在机器人技术领域，tiny数据集通过LeRobot平台系统化采集，采用Apache-2.0许可协议。数据以分块式结构组织，包含2个完整交互情景，总计1786帧时序数据，以30fps标准帧率记录。每个情景数据以parquet格式存储，配备多视角视频流与六维机械臂动作指令，确保数据采集的同步性与完整性。

特点

该数据集显著特征在于多模态观测体系，包含顶部与前置双视角RGB视频流，分辨率达640×480，采用AV1编码压缩。动作空间涵盖六自由度机械臂关节控制参数，包含肩部平移、肩部抬升、肘部弯曲等精确维度。数据标注包含时间戳、帧索引及情景标识符，支持精细的时序分析与状态追踪。

使用方法

研究者可通过HuggingFace数据枢纽直接加载parquet格式文件，利用帧索引实现情景切片提取。视频数据支持逐帧解析与动作序列对齐，适用于模仿学习与行为克隆任务。数据集提供标准化的训练验证划分，支持端到端机器人控制策略的开发与验证。

背景与挑战

背景概述

机器人学习领域近年来对高质量示范数据的需求日益增长，tiny数据集应运而生。该数据集由HuggingFace的LeRobot项目团队构建，专注于解决真实世界机器人操作任务的模仿学习问题。数据集采用Apache 2.0开源协议，包含多模态观测数据与精确的动作标注，为机器人控制策略的学习提供了重要支撑。其结构化设计体现了现代机器人学习对大规模、标准化数据集的迫切需求，对推动机器人泛化能力研究具有显著意义。

当前挑战

tiny数据集面临的核心挑战在于解决高维连续动作空间下的机器人精细操作问题，这要求模型能够从有限的示范中学习复杂的运动策略。构建过程中的挑战包括多传感器数据的时空对齐、机械臂关节运动的精确记录，以及视觉-动作对应关系的标注一致性。数据采集还需克服真实环境中的光照变化、遮挡干扰等不确定因素，确保示范质量满足学习算法的训练要求。

常用场景

经典使用场景

在机器人学习领域，tiny数据集作为LeRobot项目的重要组成部分，主要用于机器人行为模仿与策略学习的训练与验证。该数据集通过记录so101型机器人的多视角视觉观测与六维关节动作数据，为研究者提供了丰富的机器人操作序列，典型应用于端到端机器人控制模型的训练过程中，模型通过观察图像序列并生成相应的关节控制指令，实现从感知到动作的映射学习。

实际应用

在实际工业与家庭服务场景中，tiny数据集支撑了机器人抓取、物体摆放等精细操作任务的算法部署。基于该数据集训练的模型可应用于工业装配线的自动化操作，或家庭服务机器人的物品整理任务。其多视角视频数据与同步动作记录为真实世界的机器人系统提供了高保真的仿真环境，显著降低了实体机器人的调试成本与风险。

衍生相关工作

围绕tiny数据集衍生的经典研究包括基于时空特征的机器人行为预测模型、多模态融合的模仿学习框架以及跨任务泛化的策略迁移方法。这些工作充分利用了数据集的序列化观测-动作特性，开发了具有时序依赖关系的深度网络架构，并推动了视觉-运动协同建模技术在机器人领域的应用创新，为后续大规模机器人数据集的构建提供了重要范式参考。

以上内容由遇见数据集搜集并总结生成