DOM
收藏Hugging Face2026-04-27 更新2026-04-28 收录
下载链接:
https://huggingface.co/datasets/hzxie/DOM
下载链接
链接失效反馈官方服务:
资源简介:
Dynamic Object Manipulation (DOM) 是一个大规模动态操作数据集,旨在解决机器人技术中快速感知和时间预测的挑战。数据集包含 200,000 个合成片段,覆盖 2,800 多个场景和 206 个对象,适用于视觉-语言-动作(VLA)模型的训练和评估。该数据集特别适用于需要连续控制和闭环适应的动态场景。DOM 数据集支持机器人技术领域的研究,尤其是在动态对象操作和 VLA 模型评估方面。
Dynamic Object Manipulation (DOM) is a large-scale dynamic manipulation dataset designed to address the challenges of rapid perception and temporal prediction in robotics. The dataset contains 200,000 synthetic clips, covering over 2,800 scenes and 206 objects, suitable for training and evaluating vision-language-action (VLA) models. It is particularly suited for dynamic scenarios requiring continuous control and closed-loop adaptation. The DOM dataset supports research in the field of robotics, especially in dynamic object manipulation and VLA model evaluation.
创建时间:
2026-04-27
原始信息汇总
数据集概述:Dynamic Object Manipulation (DOM)
数据集地址:https://huggingface.co/datasets/hzxie/DOM
核心描述:DOM 是一个大规模动态操作数据集,专门用于训练和评估视觉-语言-动作(VLA)模型,应对机器人领域中的快速感知与时间预测挑战。
规模与构成
- 总数据量:20万(200K)合成回合
- 场景数量:超过2,800个不同的场景
- 物体数量:涵盖206种物体
任务与标签
- 任务类别:机器人(robotics)
- 数据集规模:10万至100万条(100K < n < 1M)
- 标签:lerobot、franka、dynamic、visual-language-action、vla
许可协议
- 许可证类型:其他(other)
- 许可证名称:slab-license
- 许可证链接:数据集根目录下的 LICENSE 文件
相关资源
- 项目主页:https://haozhexie.com/project/dynamic-vla
- 论文:https://huggingface.co/papers/2601.22153
- 代码仓库:https://github.com/hzxie/DynamicVLA
引用信息
如需引用该数据集或 DynamicVLA 框架,请参考 README 中提供的 BibTeX 条目(@article{xie2026dynamicvla})。
更新日志
- 2026/04/26:数据集发布
- 2026/01/31:仓库创建
搜集汇总
数据集介绍

构建方式
在机器人动态操控领域,现有数据集常因静态场景或有限物体而难以支撑对快速感知与时间预测能力的评估。为此,DOM(Dynamic Object Manipulation)数据集应运而生,其构建依托于合成数据生成技术,通过仿真环境精心编排了多达200,000条操控轨迹,涵盖超过2,800个多样化场景与206种不同物体,旨在模拟真实世界中物体运动与交互的复杂性。这一规模化的构建策略,确保了数据在视觉、运动模式及任务类型上的广泛覆盖,为后续模型训练提供了坚实的数据基础。
特点
DOM数据集的核心特点在于其专为动态环境设计的评估基准属性。不同于传统静态操控数据集,DOM聚焦于连续控制与闭环自适应场景,要求模型具备对快速移动目标的实时感知能力与时间上的前瞻性。其200K条合成片段蕴含丰富的状态变化与动作序列,有效支持视觉-语言-动作(VLA)模型的训练与评测,特别是在处理非预见性扰动和动态交互时,能够显著检验模型的泛化性与鲁棒性。
使用方法
该数据集的使用方法简洁而高效,用户可直接从HuggingFace平台获取,并配合配套的开源框架(如LeRobot)进行加载与预处理。DOM支持作为评测基准,评估视觉-语言-动作模型在动态操控任务中的表现,用户可通过其提供的项目页面与代码仓库获取详细的训练与评估流程,并参照已发表论文中的实验设置复现结果。适度的场景与物体多样性使得数据集也适用于微调与迁移学习研究。
背景与挑战
背景概述
在机器人操作领域中,动态物体操控一直是极具挑战性的研究课题,要求机器人具备快速感知与时间预期能力,以在非结构化环境中实现闭环自适应控制。由Haozhe Xie、Beichen Wen等研究人员于2026年发布的Dynamic Object Manipulation(DOM)基准数据集,旨在弥补现有视觉-语言-动作(VLA)模型在动态场景下的训练与评估短板。该数据集由新加坡南洋理工大学等机构主导构建,包含200K个合成轨迹、2,800余种场景及206类物体,覆盖丰富多样的动态操纵任务。其发布迅速推动了VLA模型在连续控制与闭环适应方面的研究进展,为机器人通用操作能力的发展提供了关键数据支撑,成为该领域内具有里程碑意义的资源。
当前挑战
DOM数据集聚焦于解决机器人动态操作中两大核心挑战:其一,现有VLA模型多针对静态或准静态场景设计,难以应对物体快速运动、轨迹突变等动态环境下的实时感知与决策,亟需大规模动态数据进行训练以提升模型的时空推理与快速响应能力;其二,在数据集构建过程中,生成200K个高质量合成轨迹面临仿真场景多样性、物理真实性以及动作标签精确性的平衡难题,同时需确保206类物体在不同光照、遮挡及运动模式下的数据覆盖度,避免模型过拟合至特定分布,这对数据生成管线的鲁棒性与可扩展性提出了严苛要求。
常用场景
经典使用场景
在机器人学习与操控领域,DOM数据集以其大规模动态物体操控场景而著称。它包含20万个合成演示片段,覆盖2800余个场景和206种不同物体,专门用于训练和评估视觉-语言-动作(VLA)模型。该数据集的核心价值在于要求模型在高速运动和物体状态快速变化的环境中,实现连续控制与闭环自适应,从而捕捉瞬态感知与时间预测的挑战。研究者通常利用DOM来测试模型在非静态场景下的泛化能力,例如抓取滚落的小球或躲避移动障碍物。
衍生相关工作
围绕DOM数据集衍生了多项开创性研究,其中最具代表性的是DynamicVLA框架。该工作首次将时间编码模块引入VLA模型,提出动态视觉-语言-动作联合学习范式,并利用DOM的时序标注实现了对物体运动轨迹的隐式预测。此外,研究者基于DOM开发了动态抓取策略对比基准,用于评估不同闭式控制算法的实时表现。还有工作探索了利用DOM进行域随机化迁移,将合成数据训练的模型部署到真实机器人上,验证了合成数据在动态任务中的有效性,推动了Sim-to-Real技术在机器操控领域的应用边界。
数据集最近研究
最新研究方向
在机器人操作领域,动态环境下的快速感知与时间预测能力成为视觉-语言-动作(VLA)模型研究的核心瓶颈。DOM数据集的发布,凭借其20万条合成轨迹、覆盖2800余场景及206类物体的庞大规模,为动态操作任务中的连续控制与闭环适应提供了关键训练与评估基准。该数据集紧密结合DynamicVLA框架,推动了具身智能体在非结构化场景中实时决策与灵巧操作的前沿探索,尤其在应对高频运动与突发干扰等挑战性任务上,显著提升了模型的时间泛化与鲁棒性。这一工作不仅填补了动态操控场景下大规模标注数据的空白,更催化了从静态执行向敏捷交互演进的机器人学习范式转变,对工业装配、服务机器人等实时操控应用具有深远意义。
以上内容由遇见数据集搜集并总结生成



