ManiTwin-100K

Name: ManiTwin-100K
Creator: 香港大学; Xspark AI; Deemos Tech; 上海交通大学; 上海科技大学; 加州大学圣地亚哥分校; D-Robotics; 北京大学; 清华大学; 深圳大学
Published: 2026-03-18 01:59:49
License: 暂无描述

arXiv2026-03-18 更新2026-03-19 收录

下载链接：

https://manitwin.github.io

下载链接

链接失效反馈

官方服务：

资源简介：

ManiTwin-100K是由香港大学等机构联合构建的大规模数字孪生对象数据集，旨在解决机器人操作学习中高质量仿真就绪资产的稀缺问题。该数据集包含10万个经过物理验证的3D资产，每个资产均配备物理属性、语言描述、功能标注及已验证的操作提案，覆盖厨房用品、工具、电子产品等多个类别。数据集通过自动化流程从单张图像生成仿真就绪的3D资产，并结合视觉语言模型进行语义标注和物理验证。ManiTwin-100K为基于仿真的操作数据生成、随机场景合成和视觉问答数据生成提供了坚实基础，显著提升了机器人操作学习的可扩展性。

ManiTwin-100K is a large-scale digital twin object dataset jointly constructed by The University of Hong Kong and other institutions, aiming to address the scarcity of high-quality simulation-ready assets in robotic manipulation learning. This dataset contains 100,000 physically validated 3D assets, each equipped with physical properties, textual descriptions, functional annotations, and verified manipulation proposals, covering multiple categories such as kitchenware, tools, and electronic products. The dataset generates simulation-ready 3D assets from single images via an automated pipeline, and combines vision-language models for semantic annotation and physical validation. ManiTwin-100K provides a solid foundation for simulation-based manipulation data generation, random scene synthesis, and visual question answering data generation, significantly improving the scalability of robotic manipulation learning.

提供机构：

香港大学; Xspark AI; Deemos Tech; 上海交通大学; 上海科技大学; 加州大学圣地亚哥分校; D-Robotics; 北京大学; 清华大学; 深圳大学

创建时间：

2026-03-18

原始信息汇总

ManiTwin: Scaling Data-Generation-Ready Digital Object Dataset to 100K

数据集名称

ManiTwin-100K

核心描述

ManiTwin是一个用于生成数据生成就绪的数字物体孪生的自动化高效流程。该流程将单张图像转化为仿真就绪且带有语义标注的3D资产，支持大规模的机器人操作数据生成。基于此流程，构建了包含10万个高质量标注3D资产的数据集ManiTwin-100K。

关键特性

规模与质量：包含100,000个高质量、带标注的3D资产。
资产标注内容：每个资产配备物理属性、语言描述、功能标注以及经过验证的操作建议。
流程自动化：提供高效的资产合成与标注工作流。

流程概述

资产生成：将输入图像转化为仿真就绪的3D网格，并利用视觉语言模型估计物理属性。
资产标注：结合基于最远点采样的候选点采样、视觉语言模型驱动的功能与抓取点选择，以及基于学习的抓取建议生成。
验证：通过物理仿真和人工审查验证标注，产出完全标注的数字孪生。

应用场景

操作数据生成：跨多种末端执行器生成操作轨迹和抓取数据。
布局生成：利用放置和碰撞半径标注，生成多样化、无碰撞且物理合理的多物体场景布局。
视觉问答数据生成：生成将操作相关问题与场景理解相关联的数据对，涵盖语言接地、功能规划、场景理解、任务规划和物体检测。

访问信息

预印本：arXiv
联系方式：kaixuan.wang@connect.hku.hk
引用信息：

@misc{wang2026manitwinscalingdatagenerationreadydigital, title={ManiTwin: Scaling Data-Generation-Ready Digital Object Dataset to 100K}, author={Kaixuan Wang and Tianxing Chen and Jiawei Liu and Honghao Su and Shaolong Zhu and Minxuan Wang and Zixuan Li and Yue Chen and Huan-ang Gao and Yusen Qin and Jiawei Wang and Qixuan Zhang and Lan Xu and Jingyi Yu and Yao Mu and Ping Luo}, year={2026}, eprint={2603.16866}, archivePrefix={arXiv}, primaryClass={cs.RO}, url={https://arxiv.org/abs/2603.16866}, }

搜集汇总

数据集介绍

构建方式

在机器人操作仿真领域，高质量、大规模的数字资产是推动学习算法发展的基石。ManiTwin-100K的构建依托于一个名为ManiTwin的自动化流水线，该流程从单张输入图像出发，通过先进的3D生成模型合成高保真网格。随后，系统利用视觉语言模型对资产进行物理属性估计、功能点标注与语言描述生成。候选交互点通过最远点采样进行选取，并经过基于学习的抓取生成器产生多样化的抓取提案。最终，所有资产与标注均通过物理仿真验证其稳定性和无碰撞特性，确保其可直接部署于主流机器人仿真器中。

使用方法

该数据集为机器人学习与3D视觉研究提供了多方面的应用支持。在操作数据生成方面，用户可利用其仿真就绪的网格和已验证的抓取姿态，自动化合成跨平台、跨任务的大规模操作轨迹数据。对于场景合成，数据集提供的放置点与碰撞半径标注支持生成多样且无碰撞的多物体场景布局。此外，丰富的语义标注使其能够用于生成面向机器人的视觉问答数据，以及支持3D物体分割、检索和功能预测等理解任务，为仿真到实物的迁移学习铺平道路。

背景与挑战

背景概述

在机器人仿真学习领域，大规模、高质量且具备丰富交互语义的数字资产是推动策略泛化与技能迁移的关键基础。现有数据集如ShapeNet、Objaverse等虽在几何多样性上表现卓越，却普遍缺乏物理参数与操作语义，难以直接支撑物理仿真与交互任务。为弥合这一鸿沟，香港大学、上海交通大学等机构的研究团队于2026年提出了ManiTwin-100K数据集，其核心目标在于构建一个兼具规模、语义丰富性与物理可用性的仿真就绪数字孪生资产库。该数据集通过自动化流程将单张图像转化为具备物理属性、功能标注、语言描述及已验证抓取位姿的三维资产，旨在为机器人操作学习提供可扩展的数据生成基础，推动仿真数据合成与策略学习的前沿发展。

当前挑战

ManiTwin-100K致力于解决机器人操作仿真中数据生成就绪资产的规模化与多样化挑战。在领域层面，其需应对从静态几何理解向动态物理交互的范式转换，确保资产不仅视觉逼真，更需编码抓取稳定性、功能语义及物理有效性等操作核心属性。构建过程中的挑战则体现于多模态融合的复杂性：从单图像到仿真就绪三维网格的生成需保证几何完整性与拓扑正确性；基于视觉语言模型的自动化标注需在物理属性估计、功能点识别与抓取位姿推荐间保持语义一致性；而大规模物理验证则要求通过仿真筛选稳定抓取，并过滤碰撞与运动不稳定的提案，确保最终资产的直接可用性。

常用场景

经典使用场景

在机器人仿真学习领域，ManiTwin-100K数据集最经典的使用场景是作为大规模、高质量的仿真训练数据生成基础。该数据集通过自动化流程生成了10万个具备物理属性、功能标注和已验证抓取姿态的仿真就绪三维资产，能够直接集成到主流物理仿真器中。研究人员利用这些资产，可以高效合成数百万条跨平台、跨任务的机器人操作轨迹，为强化学习、模仿学习等算法提供丰富且多样化的训练样本，极大缓解了真实世界数据采集成本高昂、规模有限的瓶颈。

解决学术问题

ManiTwin-100K数据集有效解决了机器人操作学习领域长期存在的几个核心学术问题。它弥合了大规模几何数据集与机器人操作需求之间的鸿沟，前者缺乏物理参数和交互语义，后者则受限于资产规模与标注丰富度。该数据集通过提供仿真就绪的资产、丰富的功能语义标注以及经过物理验证的抓取姿态，使得在仿真中训练可迁移至真实世界的通用操作策略成为可能。其意义在于建立了一个可扩展的基准，推动了数据驱动的仿真到现实迁移研究范式的进展。

实际应用

在实际应用层面，ManiTwin-100K数据集为机器人系统的开发与测试提供了强大支持。基于其资产和标注，可以自动化生成针对特定任务的操作演示数据，例如抓取、放置、倾倒、使用工具等，加速机器人技能的学习与泛化。此外，该数据集支持生成复杂的多物体场景布局和机器人视觉问答数据，可用于训练和评估机器人的场景理解、任务规划及人机交互能力。这些能力对于开发应用于家庭服务、工业装配等场景的通用机器人系统具有直接价值。

数据集最近研究