BrandonAL/eval_smolvla_spline_c100_libero_spatial
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/BrandonAL/eval_smolvla_spline_c100_libero_spatial
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: episode_index
dtype: int32
- name: index
dtype: int32
- name: frame_index
dtype: int32
- name: timestamp
dtype: float32
- name: action
list: float32
length: 7
- name: action_raw
list: float32
length: 7
- name: reward
dtype: float32
- name: done
dtype: bool
- name: success
dtype: bool
- name: observation.images.image
dtype: image
- name: observation.images.image2
dtype: image
- name: observation.robot_state
list: float32
length: 34
splits:
- name: task_1
num_bytes: 321345264
num_examples: 2654
- name: task_2
num_bytes: 210966647
num_examples: 1683
- name: task_3
num_bytes: 319288494
num_examples: 2563
- name: task_4
num_bytes: 468303969
num_examples: 3945
download_size: 1320919553
dataset_size: 1319904374
configs:
- config_name: default
data_files:
- split: task_1
path: data/task_1-*
- split: task_2
path: data/task_2-*
- split: task_3
path: data/task_3-*
- split: task_4
path: data/task_4-*
---
提供机构:
BrandonAL
搜集汇总
数据集介绍

构建方式
eval_smolvla_spline_c100_libero_spatial数据集基于LIBERO空间任务仿真环境构建,旨在评估小规模视觉-语言-动作(VLA)模型的空间泛化能力。数据集包含4个独立任务(task_1至task_4),每个任务对应一系列机器人操作轨迹。数据通过专家策略演示收集,每条轨迹记录为帧序列,包含高精度连续动作(7维浮点向量)、原始动作数据、稀疏奖励信号及任务成功标志。观测数据由两个视角的RGB图像(observation.images.image和observation.images.image2)及34维的机器人状态向量构成。所有样本按照任务场景分片存储于HuggingFace Datasets格式,便于分布式加载与流式处理。
特点
该数据集的核心特点在于其专门针对空间任务泛化评估的设计。任务场景覆盖多种空间操作情境,例如目标重排、抓取与放置,强调模型对物体位置、朝向及布局变化的鲁棒性。数据规模均衡但任务间样本量略有差异(task_4含3945条,task_1和task_3约2500条),支持细粒度性能对比。每个轨迹包含时间戳、帧索引及完整的动作序列,并保留原始动作(action_raw)以支持逆动力学学习。双摄像头设置提供丰富视觉线索,而成功标志(success)与完成信号(done)为离线指标计算提供明确标签,特别适合评估模型在未见过的空间配置下的决策能力。
使用方法
该数据集适用于离线训练与评估视觉-语言-动作模型,尤其聚焦于空间推理任务。使用时可通过HuggingFace Datasets库按任务分片加载,例如使用`load_dataset('eval_smolvla_spline_c100_libero_spatial', split='task_1')`获取完整轨迹。模型输入需组合双视角图像与机器人状态,输出7维动作向量,可配合行为克隆或扩散策略框架。建议在评估时采用逐任务指标(如平均成功率与动作精度),以揭示模型在各空间场景下的泛化差异。数据集的连续帧结构支持时序建模,但需注意动作序列与图像的时间对齐。
背景与挑战
背景概述
在机器人操作与模仿学习领域,基于视觉与语言指令的精细动作控制是当前研究的前沿方向。eval_smolvla_spline_c100_libero_spatial数据集由相关研究团队在近期创建,聚焦于空间关系理解下的机器人操作任务,旨在评估和提升模型在复杂空间布局中的动作生成能力。该数据集包含4个子任务,每个任务涵盖多帧视觉观测、机器人状态以及7维连续动作指令,为从高维视觉输入到低维动作映射的端到端学习提供了标准化评测基准。其发布对推动具身智能体在非结构化环境中的泛化能力具有重要意义,尤其在空间推理与灵巧操作交叉领域产生了积极影响。
当前挑战
该数据集所解决的领域核心挑战在于如何使机器人模型准确理解并执行基于空间语义的精细操作。具体而言,模型需从任务分割中学习跨场景的空间关系泛化,而非简单记忆特定布局。在构建过程中,挑战包括:多视角视觉数据与机器人状态的高精度同步采集;7维连续动作空间在复杂任务中的轨迹平滑性保证;以及各子任务示例数不均(如task_4含3945例,而task_2仅1683例)对模型平衡学习的制约。此外,如何从有限的专家演示中提取通用空间先验,避免过拟合,也是该数据集评测中的重要技术难题。
常用场景
经典使用场景
在机器人操作与智能控制研究领域,数据集是驱动视觉-运动策略发展的核心基石。eval_smolvla_spline_c100_libero_spatial数据集专为评估与训练基于视觉的机器人操作模型而设计,其经典使用场景聚焦于多视角视觉输入与连续动作输出的联合建模。该数据集提供了来自两个固定摄像头(image与image2)的视觉观测,结合34维机器人状态向量与7维动作执行数据,构成了一个完整的观测-动作-奖励闭环。研究者常利用此数据集进行模仿学习或强化学习的基准测试,通过连续的帧序列与轨迹信息,评估模型在空间操控任务中的泛化能力与执行精度。每一轨迹均包含原始动作与归一化动作,为算法比较提供了标准化评测平台。
衍生相关工作
依托该数据集的结构特性,已催生了一系列具有影响力的衍生研究工作。在模型架构方面,研究者基于其多视角观测与连续动作输出,设计出融合空间注意力机制与Spline插值的动作预测网络,提升了动作生成的平滑性与可执行性。在算法层面,该数据集被用于验证离线策略优化算法与基于能量的模型在稀疏奖励条件下的表现,由此衍生出多项改进的探索策略与奖励塑形技术。更有团队利用其多任务标注特性,开发出基于任务感知的动作生成框架,实现了在不重新训练的情况下完成新空间任务的零样本泛化。这些工作不仅丰富了机器人学习的方法论,也为后续构建更通用、更鲁棒的智能体系统奠定了理论与实践基础。
数据集最近研究
最新研究方向
结合多视角视觉与本体感知的机器人操作技能学习,通过高维状态空间与动作轨迹的联合建模,推动具身智能在复杂空间推理任务中的泛化能力提升。该数据集针对空间语义理解(如Spatial-LIBERO基准)设计,包含多任务演示数据(分4个子任务),为模仿学习与离线强化学习提供7维连续动作与34维机器人状态的对齐样本,其多摄像头观测(image与image2)支持跨视角特征融合,成为研究稀疏奖励下长程任务分解、策略-动作解耦及视觉运动规划等前沿方向的关键资源。
以上内容由遇见数据集搜集并总结生成



