DOMINO

github2026-03-30 更新2026-03-26 收录

下载链接：

https://github.com/H-EmbodVis/DOMINO

下载链接

链接失效反馈

官方服务：

资源简介：

DOMINO是一个大规模的数据集和基准测试，用于通用动态操作，包含35个任务和超过110K的专家轨迹。它旨在解决动态环境中移动目标和不可预测环境变化的问题，通过提供多维度评估套件和动态数据，促进动态感知的训练策略和时空表示的学习。

DOMINO is a large-scale dataset and benchmark for general dynamic manipulation, comprising 35 tasks and over 110,000 expert trajectories. It is designed to address the challenges posed by moving targets and unpredictable environmental changes in dynamic environments, and to facilitate the development of dynamic perception-driven training strategies and the learning of spatiotemporal representations through a multi-dimensional evaluation suite and dynamic data.

创建时间：

2026-03-16

原始信息汇总

DOMINO 数据集概述

数据集基本信息

数据集名称：DOMINO
核心内容：一个用于可泛化动态操作的大规模基准数据集与评估套件。
主要目标：解决动态环境中机器人操作任务，填补现有视觉-语言-动作模型在动态操作数据及时空推理能力上的不足。

数据集规模与构成

任务数量：包含35个具有层次化复杂度的动态操作任务。
数据规模：包含超过110,000条专家演示轨迹。
数据格式：数据以HDF5格式存储。
评估维度：提供多维度的评估套件，包括成功率及新增的“操作分数”等指标。

数据集特点与创新

动态环境：专注于包含移动目标和不可预测环境变化的动态操作场景。
配置参数：支持通过配置文件启用动态环境，关键参数包括：
- use_dynamic：是否启用环境动态运动。
- dynamic_level：动态运动的复杂度等级（1, 2, 3）。
- dynamic_coefficient：控制动态运动速度的缩放因子。
评估增强：引入了针对动态操作的严格成功条件，如越界检测和抬升验证。

数据获取与使用

发布状态：数据集计划在HuggingFace和ModelScope平台发布（根据TODO列表，尚未发布）。
仿真环境：数据集生成依赖于DOMINO仿真与数据生成管道。
系统要求：
- 操作系统：Linux（Windows/MacOS支持有限）。
- 硬件：推荐使用NVIDIA GPU（RTX系列以支持光线追踪）。
- 软件：Python 3.10，推荐CUDA 12.1，NVIDIA驱动版本 >= 520。
依赖项目：基于RoboTwin 2.0、starVLA、Grounded-SAM-2、SAPIEN等开源项目构建。

相关资源

论文地址：https://arxiv.org/abs/2603.15620
项目主页：https://h-embodvis.github.io/DOMINO/
许可证：Apache 2.0
引用格式： bibtex @article{fang2026towards, title={Towards Generalizable Robotic Manipulation in Dynamic Environments}, author={Fang, Heng and Li, Shangru and Wang, Shuhan and Xi, Xuanyang and Liang, Dingkang and Bai, Xiang}, journal={arXiv preprint arXiv:2603.15620}, year={2026} }

搜集汇总

数据集介绍

构建方式

在机器人动态操作领域，数据集的构建需精准捕捉环境与物体的时空变化。DOMINO数据集依托RoboTwin仿真平台，通过自动化数据生成流程，系统性地采集了涵盖35项任务的超过11万条专家轨迹。其构建过程引入了动态环境配置参数，如动态复杂度等级与运动系数，确保了数据在多样化动态场景下的代表性与真实性。数据以HDF5格式存储，为后续模型训练提供了结构化的多模态观测与动作序列。

使用方法

使用DOMINO数据集需分别配置仿真环境与策略框架。用户可通过提供的脚本启动数据收集，指定任务名称与动态配置参数。数据集支持在定义的环境配置下评估训练好的策略，评估过程兼容RoboTwin 2.0的框架，并可计算成功率与操纵评分等综合指标。数据集的发布计划涵盖HuggingFace与ModelScope平台，便于研究者获取并应用于动态感知的视觉-语言-动作模型训练与验证。

背景与挑战

背景概述

在机器人操作领域，静态环境下的任务已取得显著进展，但动态环境中的操作仍是一个极具挑战性的前沿问题。传统视觉-语言-动作模型依赖于静态单帧观测，难以捕捉运动物体的时空动态特性，限制了机器人在真实世界中的适应能力。为应对这一局限，华中科技大学与华为技术有限公司的研究团队于2026年推出了DOMINO数据集，该数据集聚焦于动态环境下的通用机器人操作，旨在通过大规模、多任务的专家轨迹数据，推动具有时空推理能力的具身智能体发展。DOMINO的构建标志着动态操作研究从理论探索迈向系统化基准测试的重要一步，为开发能够实时适应环境变化的机器人系统提供了关键数据支撑。

当前挑战

DOMINO数据集致力于解决动态环境中机器人操作的泛化性问题，其核心挑战在于如何让模型从历史运动线索中推断未来状态，以实现精准的预测性控制。现有模型在应对移动目标和不可预测的环境变化时表现不佳，根源在于动态操作数据的匮乏以及模型架构对时空连续性建模的不足。在数据集构建过程中，研究者们面临多重技术难题，包括如何设计具有层次化复杂度的动态任务以覆盖真实场景的多样性，如何确保超过11万条专家轨迹在物理模拟中的真实性与一致性，以及如何建立多维度的评估体系来量化模型在动态交互中的性能。这些挑战共同指向了开发具有强泛化能力的动态操作系统的核心瓶颈。

常用场景

经典使用场景

在机器人操作领域，动态环境下的灵巧操控一直是实现通用人工智能的关键挑战。DOMINO数据集通过提供涵盖35种任务、超过11万条专家轨迹的大规模基准，为研究动态操作问题奠定了数据基础。该数据集最经典的使用场景是训练和评估视觉-语言-动作模型在动态环境中的性能，例如让机器人追踪并抓取移动的物体，或在物体位置不断变化的环境中完成组装任务。其多层次的复杂性设计使得研究者能够系统性地探索模型对时空动态的感知与推理能力。

解决学术问题

DOMINO数据集主要解决了机器人学中动态操作数据稀缺的核心问题。传统视觉-语言-动作模型依赖静态单帧观测，缺乏对物体运动轨迹和时序变化的建模能力，导致在动态场景中表现不佳。该数据集通过提供丰富的动态交互轨迹，使得模型能够学习历史运动线索并预测未来状态，从而弥补了主流方法在时空推理方面的缺陷。其意义在于为构建具有反应性 embodied intelligence 的通用机器人系统提供了关键的训练与评估标准，推动了动态操作从理论探索走向系统化研究。

实际应用

在实际应用层面，DOMINO数据集所针对的动态操作能力是未来服务机器人、工业自动化及人机协作场景的核心需求。例如，在物流分拣流水线上，机器人需要准确抓取传送带上移动的包裹；在家庭环境中，辅助机器人需应对被意外碰落的物品或自主移动的清洁目标。该数据集通过模拟真实世界的不确定性与动态变化，为开发能够在非结构化环境中可靠工作的机器人系统提供了重要的仿真测试平台，加速了相关技术从实验室向实际场景的迁移。

数据集最近研究