refiner-utn-pick-cuboid-sim-v1

Hugging Face2026-02-05 更新2026-02-07 收录

下载链接：

https://huggingface.co/datasets/Juelg/refiner-utn-pick-cuboid-sim-v1

下载链接

链接失效反馈

官方服务：

资源简介：

Simulated Franka Pick-Cube Tactile Dataset是一个通过Robot Control Stack (RCS)生成的模拟机器人操作数据集。RCS是一个灵活的Gymnasium包装器基础的机器人控制接口，专为机器人学习特别是视觉-语言-动作（VLA）模型设计。该数据集统一了MuJoCo模拟和真实世界机器人控制，支持FR3/Panda、xArm7、UR5e和SO101四种机器人。数据集包含797个episodes，194,468帧数据，总数据文件大小为100MB，视频文件大小为200MB，帧率为30fps。数据集结构包括多种观测特征，如图像（256x256x3）、左右触觉图像（320x240x3）、状态观测（15维浮点数）、动作（8维浮点数）等，适用于机器人操作和VLA模型的研究。

创建时间：

2026-01-24

搜集汇总

数据集介绍

构建方式

在机器人操作领域，高质量仿真数据的生成对于推动视觉-语言-动作模型的发展至关重要。refiner-utn-pick-cuboid-sim-v1数据集依托Robot Control Stack这一灵活的控制接口，在MuJoCo仿真环境中系统构建。该框架集成了对FR3/Panda等多种机器人的统一控制，通过遥操作方式采集数据。数据生成过程涉及797个完整交互片段，总计产生超过19万帧的时序记录，并以分块Parquet格式高效存储，确保了数据的结构化和可扩展性。

特点

本数据集的核心特征在于其多模态与高保真的数据构成。它不仅提供了双视角的RGB视觉观测，分辨率均为256x256，更集成了左右触觉传感器的图像流，分辨率达320x240，为研究触觉感知与视觉的融合提供了独特资源。数据同时包含15维的机器人状态向量与8维的动作指令，所有信号均以30Hz的频率同步采集，形成了时空对齐的多通道序列。这种丰富的传感信息组合，特别适用于需要精细物理交互理解的机器人学习任务。

使用方法

为便于研究与应用，数据集已预先划分为训练集，用户可通过解析meta/info.json中的元数据路径加载数据。具体而言，观测图像、触觉数据、状态及动作均存储于按索引组织的Parquet文件中，而对应的演示视频则存放于独立的MP4文件内。使用者可以依据帧索引、片段索引等关键字段，灵活地提取所需的时间片段或特定传感器模态的数据，进而用于机器人策略学习、模型预训练或多模态表征学习等任务。引用相关文献时，请遵循提供的标准引文格式。

背景与挑战

背景概述

在机器人操作与视觉-语言-动作模型研究领域，高质量仿真数据的匮乏长期制约着算法的训练与验证。2025年，由Tobias Jülg、Roberto Calandra、Wolfram Burgard等研究人员及其团队发布的refiner-utn-pick-cuboid-sim-v1数据集，依托Robot Control Stack统一控制框架，在MuJoCo仿真环境中生成。该数据集聚焦于Franka机械臂执行方块抓取这一核心操作任务，旨在为机器人灵巧操作与多模态感知研究提供大规模、结构化的仿真数据支持，推动VLA模型在复杂操作场景下的泛化能力与性能提升。

当前挑战

该数据集致力于解决机器人灵巧操作中视觉-触觉多模态感知与精细动作生成的联合建模挑战。其构建过程面临多重困难：一方面，仿真环境需高保真地复现机械臂动力学、物体物理交互及触觉传感器反馈，确保数据与真实世界的可迁移性；另一方面，大规模数据采集涉及复杂的时序同步与多模态数据对齐，对存储架构与处理流程提出了极高要求。如何平衡仿真效率与物理真实性，并有效整合异构传感信息，构成了数据集构建的核心难题。

常用场景

经典使用场景

在机器人操作与视觉语言动作模型的研究领域中，模拟数据集的构建对于算法开发与验证至关重要。refiner-utn-pick-cuboid-sim-v1数据集以其丰富的多模态观测信息，成为训练机器人抓取立方体任务的经典资源。该数据集通过仿真环境生成，包含视觉图像、触觉传感数据以及机器人状态与动作序列，为研究者提供了高保真的交互轨迹，常用于端到端策略学习、模仿学习以及多模态感知融合模型的训练与评估。

解决学术问题

该数据集有效应对了机器人学习领域若干核心挑战。它通过提供大规模、结构化的仿真交互数据，缓解了真实机器人实验成本高昂、数据采集困难的瓶颈。其多模态特性支持研究者探索视觉与触觉信息的协同表征，为解决非结构化环境下的灵巧操作、跨模态策略泛化以及仿真到实物的迁移等关键学术问题提供了坚实的数据基础，推动了视觉语言动作模型在机器人控制中的理论进展。

衍生相关工作

围绕该数据集及其背后的Robot Control Stack生态系统，已催生了一系列前沿研究工作。这些工作主要集中于利用其多模态序列数据，开发新型的视觉语言动作模型架构、研究跨模态预训练方法，以及探索高效的仿真到现实迁移技术。相关成果常见于机器人学习与人工智能顶级会议，持续推动着以数据驱动为核心的机器人感知与控制范式的发展与完善。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集