five

DOMINO 具身动态目标双臂操作数据集

收藏
魔搭社区2026-04-23 更新2026-05-03 收录
下载链接:
https://modelscope.cn/datasets/H-EmbodVis/DOMINO
下载链接
链接失效反馈
官方服务:
资源简介:
<h1 align="center"> Towards Generalizable Robotic Manipulation in Dynamic Environments </h1> <div align="center"> <a href="https://arxiv.org/abs/2603.15620"><img src="https://img.shields.io/badge/arXiv-Paper-b31b1b?logo=Arxiv"></a> <a href="https://h-embodvis.github.io/DOMINO/"><img src="https://img.shields.io/badge/Homepage-project-orange.svg?logo=googlehome"></a> <a href="https://github.com/H-EmbodVis/DOMINO/"><img src="https://img.shields.io/badge/GitHub-Repository-green?logo=github"></a> <a href="https://opensource.org/licenses/Apache-2.0"><img src="https://img.shields.io/badge/License-Apache%202.0-blue?style=flat-square"></a> <h5 align="center"><em>Heng Fang<sup>1</sup>, Shangru Li<sup>1</sup>, Shuhan Wang<sup>1</sup>, Xuanyang Xi<sup>2</sup>, Dingkang Liang<sup>1</sup>, Xiang Bai<sup>1</sup> </em></h5> <sup>1</sup> Huazhong University of Science and Technology, <sup>2</sup> Huawei Technologies Co. Ltd </div> ## 🔍 概览 动态操作(Dynamic manipulation)要求机器人能够持续适应移动的物体以及不可预测的环境变化。现有的视觉-语言-动作 (Vision-Language-Action, VLA) 模型往往依赖静态的单帧观测,无法捕捉关键的时空动态信息。针对这一尚未被充分探索的前沿领域,我们推出了 **DOMINO** —— 一个综合性的大规模基准数据集;同时我们提出了 **PUMA** —— 一种具有预测能力的架构,它将历史运动特征与未来状态预测相结合,从而实现具备高度反应能力的具身智能。 <details> <summary>英文摘要</summary> Vision-Language-Action (VLA) models excel in static manipulation but struggle in dynamic environments with moving targets. This performance gap primarily stems from a scarcity of dynamic manipulation datasets and the reliance of mainstream VLAs on single-frame observations, restricting their spatiotemporal reasoning capabilities. To address this, we introduce DOMINO, a large-scale dataset and benchmark for generalizable dynamic manipulation, featuring 35 tasks with hierarchical complexities, over 110K expert trajectories, and a multi-dimensional evaluation suite. Through comprehensive experiments, we systematically evaluate existing VLAs on dynamic tasks, explore effective training strategies for dynamic awareness, and validate the generalizability of dynamic data. Furthermore, we propose PUMA, a dynamics-aware VLA architecture. By integrating scene-centric historical optical flow and specialized world queries to implicitly forecast object-centric future states, PUMA couples history-aware perception with short-horizon prediction. Results demonstrate that PUMA achieves state-of-the-art performance, yielding a 6.3% absolute improvement in success rate over baselines. Moreover, we show that training on dynamic data fosters robust spatiotemporal representations that transfer to static tasks. </details> > ⚠️ **Note**:本页面仅为数据发布页,旨在为国内研究者提供方便的数据下载渠道。页面文字或数据可能存在更新滞后的情况。如果您在使用过程中发现任何数据异常或疑问,欢迎随时与我们联系。为了确保我们能及时跟进并解决问题,建议优先通过 GitHub Issue 或发送电子邮件联系我们(本平台的留言我们可能无法及时查看,敬请谅解)。 ### ✨ 核心亮点 * 当前的 VLA 模型由于缺乏动态数据集且依赖单帧观测,在动态操作任务上面临挑战。 * 我们推出了 DOMINO,这是一个包含 35 个任务和超过 11 万条专家轨迹的大规模动态操作基准数据集。 * 我们提出了 PUMA,一种具备动态感知的 VLA 架构。该架构融合了历史光流与世界查询,能够有效预测物体未来的状态。 * 在动态数据上训练能促使模型学习到鲁棒的时空表征,展现出更强的泛化能力。 ## 📊 数据集简介 **DOMINO** 是一个大规模且全面的数据集与基准测试,专为动态环境中可泛化的机器人操作任务而设计。它填补了动态操作数据极度匮乏的空白,打破了现有视觉-语言-动作 (VLA) 模型在时空推理能力上的限制。 - **总轨迹数:** 117,000 条专家演示轨迹。 - **任务数量:** 35 个具有层级复杂度的独立动态操作任务。 - **机器人平台:** 覆盖多种具身形态,包括 `franka-panda`, `ur5-wsg`, `aloha-agilex`, `ARX-X5`, 和 `piper`。 - **环境设置:** 包含干净环境 (`clean`) 与域随机化环境 (`randomized`)。 - **难度等级:** 包含从 `level1` 到 `level3` 逐渐递增的动态难度。 ## 📁 数据集结构 数据集按任务名称分层组织。在每个任务文件夹下,轨迹数据被打包成 `.zip` 文件,并根据机器人类型、环境条件、难度等级以及轨迹数量进行分类。 典型的文件路径结构如下: ``` dataset/<task_name>/<robot_name>_<condition>_<level>_<trajectory_count>.zip ``` ## 🛠️ 下载与使用 #### ModelScope 下载方法 :modelscope-code[]{type="sdk"} :modelscope-code[]{type="git"} ## 📖 引用 如果您觉得我们的工作对您有帮助,请考虑引用: ```bibtex @article{fang2026towards, title={Towards Generalizable Robotic Manipulation in Dynamic Environments}, author={Fang, Heng and Li, Shangru and Wang, Shuhan and Xi, Xuanyang and Liang, Dingkang and Bai, Xiang}, journal={arXiv preprint arXiv:2603.15620}, year={2026} } ```

<h1 align="center">面向动态环境的可泛化机器人操作</h1> <div align="center"> <a href="https://arxiv.org/abs/2603.15620"><img src="https://img.shields.io/badge/arXiv-论文-b31b1b?logo=Arxiv"></a> <a href="https://h-embodvis.github.io/DOMINO/"><img src="https://img.shields.io/badge/项目主页-orange.svg?logo=googlehome"></a> <a href="https://github.com/H-EmbodVis/DOMINO/"><img src="https://img.shields.io/badge/GitHub-仓库-green?logo=github"></a> <a href="https://opensource.org/licenses/Apache-2.0"><img src="https://img.shields.io/badge/许可证-Apache%202.0-blue?style=flat-square"></a> <h5 align="center"><em>方恒<sup>1</sup>, 李尚儒<sup>1</sup>, 王书涵<sup>1</sup>, 席轩阳<sup>2</sup>, 梁定康<sup>1</sup>, 白翔<sup>1</sup> </em></h5> <sup>1</sup> 华中科技大学,<sup>2</sup> 华为技术有限公司 </div> ## 🔍 概览 动态操作(Dynamic manipulation)要求机器人能够持续适应移动的物体以及不可预测的环境变化。现有的视觉-语言-动作 (Vision-Language-Action, VLA) 模型往往依赖静态的单帧观测,无法捕捉关键的时空动态信息。针对这一尚未被充分探索的前沿领域,我们推出了 **DOMINO** —— 一个综合性的大规模基准数据集;同时我们提出了 **PUMA** —— 一种具有预测能力的架构,它将历史运动特征与未来状态预测相结合,从而实现具备高度反应能力的具身智能。 <details> <summary>英文摘要</summary> 视觉-语言-动作(Vision-Language-Action, VLA)模型在静态操作任务中表现优异,但在包含移动目标的动态环境中却难以胜任。这一性能差距主要源于动态操作数据集的匮乏,以及主流VLA模型依赖单帧观测的特性,限制了其时空推理能力。为解决这一问题,我们推出了DOMINO——一个面向可泛化动态操作的大规模数据集与基准测试集,包含35个具有层级复杂度的任务、超过11万条专家演示轨迹,以及一套多维度评估体系。通过全面的实验,我们系统评估了现有VLA模型在动态任务上的表现,探索了实现动态感知的有效训练策略,并验证了动态数据的泛化能力。此外,我们提出了PUMA——一种具备动态感知能力的VLA架构。该架构通过融合以场景为中心的历史光流与专用世界查询,隐式预测以物体为中心的未来状态,将历史感知与短时预测相结合。实验结果表明,PUMA实现了当前最优性能,相较于基线模型的成功率提升了6.3个百分点。同时,我们证明了在动态数据上训练能够催生鲁棒的时空表征,可迁移至静态任务。 </details> > ⚠️ **Note**:本页面仅为数据发布页,旨在为国内研究者提供方便的数据下载渠道。页面文字或数据可能存在更新滞后的情况。如果您在使用过程中发现任何数据异常或疑问,欢迎随时与我们联系。为了确保我们能及时跟进并解决问题,建议优先通过 GitHub Issue 或发送电子邮件联系我们(本平台的留言我们可能无法及时查看,敬请谅解)。 ### ✨ 核心亮点 * 当前的 VLA 模型由于缺乏动态数据集且依赖单帧观测,在动态操作任务上面临挑战。 * 我们推出了 DOMINO,这是一个包含 35 个任务和超过 11 万条专家轨迹的大规模动态操作基准数据集。 * 我们提出了 PUMA,一种具备动态感知的 VLA 架构。该架构融合了历史光流与世界查询,能够有效预测物体未来的状态。 * 在动态数据上训练能促使模型学习到鲁棒的时空表征,展现出更强的泛化能力。 ## 📊 数据集简介 **DOMINO** 是一个大规模且全面的数据集与基准测试,专为动态环境中可泛化的机器人操作任务而设计。它填补了动态操作数据极度匮乏的空白,打破了现有视觉-语言-动作 (VLA) 模型在时空推理能力上的限制。 - **总轨迹数:** 117,000 条专家演示轨迹。 - **任务数量:** 35 个具有层级复杂度的独立动态操作任务。 - **机器人平台:** 覆盖多种具身形态,包括 `franka-panda`, `ur5-wsg`, `aloha-agilex`, `ARX-X5`, 和 `piper`。 - **环境设置:** 包含干净环境 (`clean`) 与域随机化环境 (`randomized`)。 - **难度等级:** 包含从 `level1` 到 `level3` 逐渐递增的动态难度。 ## 📁 数据集结构 数据集按任务名称分层组织。在每个任务文件夹下,轨迹数据被打包成 `.zip` 文件,并根据机器人类型、环境条件、难度等级以及轨迹数量进行分类。 典型的文件路径结构如下: dataset/<task_name>/<robot_name>_<condition>_<level>_<trajectory_count>.zip ## 🛠️ 下载与使用 #### ModelScope 下载方法 :modelscope-code[]{type="sdk"} :modelscope-code[]{type="git"} ## 📖 引用 如果您觉得我们的工作对您有帮助,请考虑引用: bibtex @article{fang2026towards, title={"Towards Generalizable Robotic Manipulation in Dynamic Environments"}, author={Fang, Heng and Li, Shangru and Wang, Shuhan and Xi, Xuanyang and Liang, Dingkang and Bai, Xiang}, journal={arXiv preprint arXiv:2603.15620}, year={2026} }
提供机构:
maas
创建时间:
2026-03-27
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
DOMINO是一个大规模具身动态目标双臂操作数据集,旨在推动机器人操作在动态环境中的泛化能力。它包含35个具有层级复杂度的任务和超过11万条专家轨迹,覆盖多种机器人平台和环境设置,以解决现有视觉-语言-动作模型依赖单帧观测的不足。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务