USIM

Name: USIM
Creator: 中国科学院自动化研究所复杂系统认知与决策智能重点实验室
Published: 2025-10-10 12:24:53
License: 暂无描述

arXiv2025-10-10 更新2025-10-14 收录

下载链接：

https://vincentgu2000.github.io/u0project

下载链接

链接失效反馈

官方服务：

资源简介：

USIM是一个基于模拟的多任务视觉-语言-行动（VLA）数据集，用于水下机器人。它包含来自1852个轨迹的561K帧，总时长约为15.6小时，涵盖20个任务，包括视觉导航、移动操作等。该数据集是在Stonefish模拟器中构建的，旨在为水下机器人的自主性和智能性提供基础。

USIM is a simulation-based multi-task Visual-Language-Action (VLA) dataset for underwater robotics. It comprises 561K frames from 1,852 trajectories, with a total duration of approximately 15.6 hours, covering 20 tasks including visual navigation and mobile manipulation. Developed using the Stonefish simulator, this dataset aims to lay a foundation for the autonomy and intelligence of underwater robotic systems.

提供机构：

中国科学院自动化研究所复杂系统认知与决策智能重点实验室

创建时间：

2025-10-09

原始信息汇总

USIM和U0：通用水下机器人的视觉-语言-动作数据集与模型

数据集概述

USIM是基于仿真的视觉-语言-动作数据集，包含56.1万帧（15.6小时）数据，来自BlueROV2在9种场景中20个任务的1,852条交互轨迹。

模型介绍

U0是多模态VLA模型，通过卷积注意力感知模块融合双目视觉和传感器数据，在检查、导航和跟踪等任务中达到80%的成功率。在移动操作任务中，相比基线方法将目标距离减少了21.2%。

技术框架

仿真环境：使用Stonefish模拟器构建多样化水下场景和配备机械手的BlueROV2机器人
数据收集：通过ROS实现数据收集和控制
模型架构：采用双系统架构，集成多模态传感器融合和基于卷积注意力的感知聚焦增强

水下场景

海底
海底管道
工业池
太阳能充电站
湖泊
开放海面
水下工厂
现代沉船
古代沉船

论文信息

标题：USIM and U0: A Vision-Language-Action Dataset and Model for General Underwater Robots
作者：Junwen Gu, Zhiheng Wu, Pengxuan Si, Shuang Qiu, Yukai Feng, Luoyang Sun, Laien Luo, Lianyi Yu, Jian Wang, Zhengxing Wu
年份：2025
arXiv：https://arxiv.org/abs/2510.07869
机构：中国科学院自动化研究所、百度、中国科学院大学

搜集汇总

数据集介绍

构建方式

在海洋机器人研究领域，构建高质量数据集对推动自主智能发展至关重要。USIM数据集采用基于仿真的方法，利用Stonefish模拟器构建了九个多样化水下场景，包括海底环境、工业水池和沉船遗址等。通过集成ROS系统实现自动化数据采集，结合地图随机化模块和环境光照变化，生成了涵盖20种任务的561K帧数据，总计约15.6小时的机器人交互轨迹，确保了数据在视觉多样性和物理真实性上的高度统一。

特点

该数据集的核心价值体现在其多模态特性与任务覆盖广度。USIM整合了双目视觉图像、压力传感器、惯性测量单元和多普勒测速仪等多源传感器数据，同时包含推进器控制信号与机械臂关节角度动作空间。其任务体系涵盖视觉导航、动态跟踪、管道检测等12种抓取任务与8种非抓取任务，通过1,852条轨迹呈现了水下机器人从感知到执行的完整闭环，为跨任务泛化研究提供了坚实基础。

使用方法

针对水下机器人智能算法开发需求，该数据集遵循LeRobot规范进行组织，明确划分训练集与测试集。研究者可通过加载标准化数据接口，将多模态观测数据与语言指令共同输入至视觉语言动作模型。具体实施时，可利用双目视觉流与传感器时序数据联合训练，通过相对坐标表征强化空间推理能力，并借助卷积注意力机制提升在浑浊水域中的目标定位精度，最终实现从感知到动作的端到端策略学习。

背景与挑战

背景概述

水下机器人技术作为探索海洋资源与执行复杂任务的关键手段，面临着复杂流体动力学、有限能见度及通信受限等独特挑战。为应对这些难题，中国科学院自动化研究所联合百度公司于2025年提出了USIM数据集，该数据集基于Stonefish仿真平台构建，包含56.1万帧视觉语言动作数据，覆盖20种任务场景。通过模拟BlueROV2机器人在9种水下环境中的交互轨迹，该数据集为开发通用型水下智能系统提供了重要基础，显著推动了多任务自主决策技术在海洋工程领域的应用。

当前挑战

USIM数据集致力于解决水下机器人多任务协同操作的领域挑战，包括动态目标追踪、流体干扰下的移动抓取等复杂问题。在构建过程中，研究团队需克服仿真环境真实性与数据多样性的平衡难题，通过随机化光照条件与水体浊度参数来模拟真实海洋环境。同时，多模态传感器数据的同步采集与标定、双目视觉在浑浊水域的特征提取、以及推进器与机械臂控制的动作空间建模，均为数据集构建的核心技术挑战。

常用场景

经典使用场景

在海洋机器人研究领域，USIM数据集作为首个基于仿真的多任务视觉-语言-动作数据集，被广泛应用于水下机器人的通用智能开发。其经典使用场景涵盖视觉导航、移动操作、动态跟踪等20项任务，通过模拟9种典型水下环境如海底管道检测、沉船扫描等，为模型训练提供了包含56.1万帧数据的多模态交互轨迹。研究者常利用该数据集构建端到端的感知决策管道，通过语言指令驱动机器人完成复杂的水下作业任务。

解决学术问题

该数据集有效解决了水下机器人领域长期存在的多任务协同决策难题。通过提供统一的多模态数据框架，突破了传统方法在流体动力学建模与视觉退化补偿方面的局限性。其创新性地将双目视觉与压力传感器、IMU等数据融合，显著提升了模型在浑浊水域的空间感知精度。实验表明，基于该数据集训练的模型在移动抓取任务中将目标距离误差降低21.2%，为水下通用智能体的开发奠定了数据基础。

衍生相关工作

该数据集催生了系列创新性研究工作，其中最具代表性的是U0模型架构的开发。研究者通过引入卷积注意力感知增强模块，构建了适应水下特殊环境的视觉-语言-动作模型。后续研究在此基础上扩展了多智能体协同框架与声纳模态融合方案，形成了从仿真到实物的技术闭环。这些衍生工作共同推动了水下机器人从单任务执行向通用智能体的范式转变，为海洋自主系统建立了完整的技术生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集