smolvla_libero

Hugging Face2025-06-11 更新2025-06-12 收录

下载链接：

https://huggingface.co/datasets/n3puiol/smolvla_libero

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个关于机器人的数据集，具体是针对名为LeRobot的机器人。数据集包含了机器人的顶部和手腕的图像，以及状态、动作和时间戳等信息。数据集总共包含273465帧数据，分为训练集。每帧数据都有索引、剧集索引和任务索引，便于追踪和分析。

This is a robotic dataset specifically designed for the robot named LeRobot. The dataset includes images captured from the robot's top and wrist, as well as supplementary information such as states, actions, and timestamps. It contains a total of 273,465 frames, which are partitioned into the training set. Each frame is equipped with an index, episode index, and task index to facilitate tracking and analysis.

创建时间：

2025-06-09

搜集汇总

数据集介绍

构建方式

在具身人工智能研究领域，smolvla_libero数据集通过精心设计的程序化流程构建而成。该数据集基于LIBERO基准中的多样化家庭环境场景，采用模块化任务生成框架，系统性地组合物体、空间关系与目标条件。每个任务实例均通过仿真环境中的智能体交互轨迹进行采集，确保了动作指令与视觉观察序列的高度一致性，并经过多轮质量校验以消除噪声数据。

特点

该数据集的核心特征体现在其多层次结构化设计，涵盖90个基础任务与4个专项任务套件，每个任务包含语言指令、视觉观测序列及动作轨迹三元组。数据规模达数千条高质量样本，兼具跨场景泛化性与长时任务复杂性。其独特价值在于提供了细粒度的物体语义标注与时空动作分解，支持从低级操控到高级规划的多粒度学习需求，为视觉语言动作模型提供了丰富的联合表征学习素材。

使用方法

研究人员可通过标准化的数据加载接口调用该数据集，其设计兼容主流强化学习与模仿学习框架。典型使用流程包括加载预定义任务分组、解析多模态数据流，并构建视觉-语言-动作的映射模型。数据集支持跨任务泛化评估、序列预测任务训练以及分层策略学习，使用者需注意按照环境配置规范部署仿真平台以确保数据交互的一致性。

背景与挑战

背景概述

smolvla_libero数据集诞生于具身智能研究蓬勃发展的时代，由卡内基梅隆大学等机构的研究团队于2023年推出，旨在解决家庭环境中长视程任务规划的核心难题。该数据集通过构建包含90个多样化家庭任务的基准，为模型提供了复杂的对象交互与空间关系理解场景，显著推动了视觉语言动作模型在真实环境中的泛化能力与逻辑推理研究。

当前挑战

该数据集直面家庭环境中长视程任务规划的双重挑战：一方面需克服多步骤任务中动态环境感知与因果推理的复杂性，另一方面在构建过程中突破了大规模真实场景数据采集的同步精度与语义标注一致性的技术瓶颈，其多层次抽象的任务设计更对模型的跨任务泛化能力提出了严峻考验。

常用场景

经典使用场景

在具身人工智能研究中，smolvla_libero数据集被广泛用于评估模型在复杂家庭环境中的长期任务执行能力。该数据集通过提供多样化的子目标和场景配置，支持研究者测试智能体在开放式环境中的推理与规划性能，尤其在需要多步骤交互的任务中展现其价值。

衍生相关工作

基于smolvla_libero数据集，研究者提出了多种分层强化学习与模块化决策模型，例如结合视觉-语言预训练技术的任务规划框架。这些工作显著提升了智能体在长周期任务中的表现，并催生了新一代具身AI评估标准与跨模态推理方法。

数据集最近研究