DOMINO

Name: DOMINO
Creator: 华中科技大学; 华为技术有限公司
Published: 2026-03-17 01:59:57
License: 暂无描述

arXiv2026-03-17 更新2026-03-18 收录

下载链接：

https://github.com/H-EmbodVis/DOMINO

下载链接

链接失效反馈

官方服务：

资源简介：

DOMINO是由华中科技大学和华为技术有限公司联合开发的大规模动态操作数据集，旨在解决机器人动态环境操作中的数据稀缺问题。该数据集包含35个不同复杂度的动态任务，覆盖5种机器人平台，提供超过11万条专家轨迹，数据通过SAPIEN物理引擎和RoboTwin 2.0框架生成。DOMINO采用层次化的动态复杂度设计，从可预测的低阶动态到随机突变的高阶动态，为开发动态感知的视觉-语言-动作模型提供了重要基准。该数据集主要应用于机器人动态操作、时空推理和预测控制等领域。

提供机构：

华中科技大学; 华为技术有限公司

创建时间：

2026-03-17

原始信息汇总

DOMINO 数据集概述

数据集基本信息

数据集名称：DOMINO
核心目标：为动态环境中的通用机器人操作提供一个大规模基准。
提出背景：现有视觉-语言-动作模型在静态操作中表现出色，但在动态环境中因缺乏相关数据集和依赖单帧观测而表现不佳。

数据集内容与规模

任务数量：包含35个任务，具有层次化的复杂度。
数据规模：包含超过110,000条专家演示轨迹。
评估体系：提供多维度的评估套件。

关键结论与影响

数据效用：在动态数据上进行训练可以培养鲁棒的时空表征。
泛化能力：这些表征能够迁移到静态任务中，显示出增强的泛化能力。

数据状态与获取

当前状态：根据TODO列表，数据集、数据生成管道、训练与评估代码尚未发布。
引用文献： bibtex @article{fang2026towards, title={Towards Generalizable Robotic Manipulation in Dynamic Environments}, author={Fang, Heng and Li, Shangru and Wang, Shuhan and Xi, Xuanyang and Liang, Dingkang and Bai, Xiang}, journal={arXiv preprint arXiv:2603.15620}, year={2026} }
相关链接：
- 论文地址：https://arxiv.org/abs/2603.15620
- 项目主页：https://h-embodvis.github.io/DOMINO/
- 许可证：Apache 2.0

搜集汇总

数据集介绍

构建方式

在动态机器人操作领域，构建高质量数据集面临严峻挑战，核心在于如何实现移动目标与机器人动作之间精确的时空同步。DOMINO数据集通过一种创新的两阶段时空同步方法，有效解决了这一难题。该方法首先在静态环境中进行“时间预演”，记录机器人执行任务所需的确切时间；随后，在“运动反算”阶段，根据记录的执行时间和预设的运动轨迹，逆向推算出目标物体的初始空间位置。整个数据生成流程基于SAPIEN物理引擎和RoboTwin 2.0框架构建，将目标物体实例化为运动学刚体，确保了运动执行的稳定性和可预测性，并辅以针对复杂物体的专门适配和严格的动态任务成功标准，最终生成了涵盖35个任务、超过11万条专家轨迹的大规模动态操作数据。

特点

DOMINO数据集通过一套精密的时空任务分类学、层次化的运动复杂度以及全面的评估指标，系统地刻画了动态操作的本质。其将35个基准任务依据交互需求划分为动态拦截和动态追踪两大功能类别，前者评估瞬时目标捕获能力，后者则考验持续同步的闭环控制。更为核心的是，数据集依据运动动力学的可预测性，构建了三个层次的难度阶梯：从恒定速度的低阶可预测动态，到遵循多项式曲线的高阶可预测动态，最终延伸至包含独立运动片段、具有速度和加速度不连续性的随机突变动态。这种层次化设计使得评估能够覆盖从基础轨迹外推到复杂反应性适应的全频谱能力。此外，数据集还引入了参数化的动态系数α来精确控制任务复杂度，并设计了超越二元成功率的综合评估套件，包括考量执行质量的操纵分数，为动态操作能力的量化评估提供了多维度的精细标尺。

使用方法

DOMINO数据集为评估和提升视觉-语言-动作模型在动态环境中的泛化能力提供了标准化的基准平台。研究者可利用其提供的超过11万条专家轨迹，在涵盖五种机器人本体、三种动态复杂度的35个任务上进行模型训练与测试。数据集支持在规范设置和领域随机化设置下收集的轨迹，便于进行严格的泛化能力评估。在使用时，研究者可以参数化动态系数α来调整任务难度，例如DOMINO@0.1表示最大目标速度为0.1米/秒。评估过程采用闭环测试，除标准成功率外，更推荐使用综合考量空间收敛度、安全行为惩罚的操纵分数进行性能度量。该数据集旨在系统性揭示现有模型在从静态环境转向动态环境时所面临的时空推理瓶颈，并为开发像PUMA这类集成历史光流感知与未来状态隐式预测的动态感知架构提供关键的训练与验证数据基础。

背景与挑战

背景概述

DOMINO数据集由华中科技大学与华为技术有限公司的研究团队于2026年提出，旨在解决具身智能领域动态操作任务中数据稀缺与模型泛化能力不足的核心问题。该数据集构建于SAPIEN物理引擎与RoboTwin 2.0仿真框架之上，包含35种动态操作任务、超过11万条专家轨迹，并引入了层次化的动态复杂度分级与多维评估体系。DOMINO的创建标志着机器人操作研究从静态环境向动态交互场景的范式转移，为视觉-语言-动作模型的时空推理能力提供了系统性基准，推动了动态环境下通用化操作策略的发展。

当前挑战

DOMINO数据集致力于解决动态操作任务中机器人对运动目标的精准交互问题，其核心挑战在于模型需具备连续时空感知与运动预测能力。现有视觉-语言-动作模型依赖单帧观测，难以捕捉目标物体的运动轨迹与未来状态，导致在动态环境中性能显著下降。数据构建过程中，运动目标与机械臂动作的严格时空同步、复杂动态场景下的专家示范采集、以及多层次动态复杂度的可控生成，均构成了数据集构建的技术难点。这些挑战共同指向了动态操作任务对模型架构与训练范式提出的全新要求。

常用场景

经典使用场景

在具身智能与机器人操作领域，DOMINO数据集最经典的使用场景是作为评估视觉-语言-动作模型在动态环境中泛化能力的基准。该数据集通过模拟现实世界中目标物体持续运动的复杂场景，如传送带上的抓取、移动平台上的放置等任务，系统地检验模型对时空变化的感知与响应能力。研究者利用其层次化的动态复杂度划分，从匀速直线运动到随机突变轨迹，逐步探究智能体在不同运动模式下的操作极限，为动态操作算法的开发与比较提供了标准化测试平台。

解决学术问题

DOMINO数据集主要解决了机器人操作研究中动态环境数据稀缺的核心瓶颈，以及现有VLA模型因依赖单帧观测而缺乏时空推理能力的关键学术问题。它通过提供大规模、高质量的运动目标操作轨迹，使得模型能够学习预测物体未来状态并进行前瞻性规划，从而弥合了静态操作与动态操作之间的性能鸿沟。该数据集的意义在于首次系统性地定义了动态操作的评估维度，推动了具身智能从稳定环境向开放、连续变化环境的范式转移，为构建真正通用的机器人操作智能奠定了数据基础。

衍生相关工作

DOMINO数据集的发布催生了一系列专注于提升动态操作性能的经典研究工作。其配套提出的PUMA架构，通过集成历史光流和专用世界查询来隐式预测目标物体的未来状态，显著提升了动态感知与规划能力，成为该领域的代表性方法。此外，数据集也促进了针对动态数据的训练策略探索，例如混合静态与动态数据的协同训练被证明能有效结合稳定先验与反应敏捷性。这些工作共同推动了动态感知、运动预测与闭环控制等方向的算法创新，丰富了具身智能的技术体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集