five

BrandonAL/eval_smolvla_spline_c100_libero_object

收藏
Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/BrandonAL/eval_smolvla_spline_c100_libero_object
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: episode_index dtype: int32 - name: index dtype: int32 - name: frame_index dtype: int32 - name: timestamp dtype: float32 - name: action list: float32 length: 7 - name: action_raw list: float32 length: 7 - name: reward dtype: float32 - name: done dtype: bool - name: success dtype: bool - name: observation.images.image dtype: image - name: observation.images.image2 dtype: image - name: observation.robot_state list: float32 length: 34 splits: - name: task_0 num_bytes: 273522677 num_examples: 1654 - name: task_1 num_bytes: 480964793 num_examples: 2727 download_size: 754903270 dataset_size: 754487470 configs: - config_name: default data_files: - split: task_0 path: data/task_0-* - split: task_1 path: data/task_1-* ---
提供机构:
BrandonAL
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集基于SMOLVLA框架,针对LIBERO仿真环境中的对象操作任务构建。通过对机器人执行任务的轨迹进行采样,采集了涵盖两种不同子任务(task_0与task_1)的交互数据。每条轨迹包含动作序列、观测图像(来自两个视角)、机器人状态以及奖励信号,采用Spline曲线插值方法对原始动作进行平滑处理,形成最终的动作表征。数据集以分片形式存储,便于分布式加载。
特点
数据集包含丰富的多模态信息,如双视角视觉观测(image与image2)与34维机器人状态,为模仿学习与强化学习提供充分的环境感知基础。动作数据同时提供原始动作(action_raw)与经过插值平滑的动作(action),便于研究者对比不同动作表征对策略学习的影响。此外,数据集标注了奖励(reward)、任务终止信号(done)与任务成功标志(success),支持基于奖励的强化学习与基于成功率的评估。
使用方法
用户可通过HuggingFace的datasets库加载该数据集,按需选取指定任务分片(task_0或task_1)。在策略训练中,推荐使用观测图像序列与机器人状态作为输入,以平滑后的7维动作对应预测输出;或利用原始动作进行对比实验。数据集的轨迹结构(episode_index)与时间戳(timestamp)信息可用于构建时序模型与基于帧的批次采样。
背景与挑战
背景概述
该数据集名为eval_smolvla_spline_c100_libero_object,源自机器人学习与视觉语言导航交叉领域,由相关研究机构于近期构建,旨在探索如何通过视觉观察与低维状态信息驱动机器人完成物体操作任务。其核心研究问题聚焦于利用稀疏轨迹数据(如每段仅含数百帧的演示)训练高效的行为克隆或规划模型,以提升机器人在真实场景中的泛化能力。数据集包含两个子任务(task_0与task_1),分别提供1654和2727条演示样本,每帧记录双视角图像、34维机器人状态及7维动作信息,为评估小样本视觉语言动作模型的性能提供了标准化基准。该数据集对推动机器人操作任务的轻量化模型设计具有重要参考价值,尤其在嵌入式或计算资源受限的场景下,其结构设计有助于验证模型对多模态输入融合与动作序列预测的效果。
当前挑战
当前数据集面临的核心挑战可分为三方面。首先,在领域问题层面,数据集旨在解决机器人从视觉演示中学习复杂物体操作策略的难题,要求模型在仅有数百条轨迹的情况下实现动作的准确复现与任务完成,这对模型的因果推理与泛化能力构成极大考验。其次,在构建过程中,数据采集需同时同步双摄像头视角与机器人关节状态,且动作标注需精确到7维连续空间,任何传感器偏差或时间戳错位都会引入噪声,影响模型训练的稳定性。此外,任务间的演示不平衡(task_0仅1654例,task_1有2727例)可能导致模型偏向高频任务,而稀疏帧数(如每集平均帧数有限)使得长期依赖关系的学习更加困难,亟需设计鲁棒的数据增强或少样本处理方法以缓解这些局限。
常用场景
经典使用场景
在机器人学习与具身智能研究领域,eval_smolvla_spline_c100_libero_object数据集作为一项精良设计的评估基准,主要用于多模态决策任务的标准化评测。该数据集通过高保真视觉观测图像(image与image2双视角)与34维机器人状态信息的联合记录,配合7维原生及插值后的动作序列,为模仿学习、行为克隆及强化学习方法提供了闭环的评估环境。研究者通常在仿真平台中利用此数据集对策略泛化能力进行检验,特别是在面向物体操作的精细任务中,通过采样离散帧序列与连续性动作标签的对应关系,验证模型从视觉特征到运动控制的端到端映射质量。
实际应用
在实际工业场景中,该数据集可服务于智能仓储与精密装配等领域的策略预训练与迁移。通过利用两视角视觉观测数据,服务机器人能够从遮挡密集的环境中提取鲁棒的物体表征,结合7维动作空间(包含平移、旋转与夹爪控制)的精细化标注,使算法在未知物体形状或光照变化下仍能保持稳定抓取姿态。此外,数据集中内嵌的奖励与成功信号,为半自主生产线中的人机协同系统提供了离线评估标准,有效降低在线试错成本并提升部署效率。
衍生相关工作
基于eval_smolvla_spline_c100_libero_object的结构特性,衍生出多项创新性研究成果。一方面,其双模态视觉输入(image与image2)启发了跨视角特征融合方法,研究者开发了面向部分遮挡场景的注意力表征学习模型;另一方面,动作空间的spline插值设计催生了平滑策略约束的强化学习算法,通过动作序列的时序一致性损失函数显著提升运动平滑度。此外,该数据集的任务分解格式(episode与frame双重索引)为长程操作中的子目标发现研究提供了标准化实验平台,相关成果已被应用于面向复杂装配任务的层次化技能库构建工作。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作