MechVerse
收藏Hugging Face2026-05-10 更新2026-05-11 收录
下载链接:
https://huggingface.co/datasets/Mayank-p3108/MechVerse
下载链接
链接失效反馈官方服务:
资源简介:
MechVerse是一个大规模机械组装动画视频数据集,旨在微调和评估生成式视频模型在机械运动理解方面的能力。该数据集包含来自141个类别的1,357个组件的21,156个视频片段,每个片段都配有结构化的自然语言提示。数据来源包括PartNet-Mobility(904个组件)和精选的CAD组件(453个)。视频片段根据复杂度分为三个等级:简单(15,720个片段,1-2个独立运动部件)、中等(2,412个片段,3-8个运动耦合部件)和困难(3,024个片段,10-50个密集耦合部件)。每个组件在不同条件下渲染:3种速度(慢速/中速/快速)、2-3个摄像机视角和2种运动方向(正向/反向)。所有片段均为32帧,16 FPS(2秒时长)。数据集分为训练集(18,672个片段)、测试集(1,004个片段)和完整数据集(21,156个片段)。该数据集采用CC BY 4.0许可证发布,使用时需遵守引用要求。
MechVerse is a large-scale mechanical assembly animation video dataset designed for fine-tuning and evaluating generative video models in understanding mechanical motion. The dataset contains 21,156 video clips from 1,357 components across 141 categories, each accompanied by structured natural language prompts. Data sources include PartNet-Mobility (904 components) and selected CAD components (453). Video clips are classified into three complexity levels: simple (15,720 clips, 1-2 independent moving parts), medium (2,412 clips, 3-8 motion-coupled parts), and difficult (3,024 clips, 10-50 densely coupled parts). Each component is rendered under different conditions: 3 speeds (slow/medium/fast), 2-3 camera viewpoints, and 2 motion directions (forward/reverse). All clips are 32 frames at 16 FPS (2 seconds duration). The dataset is divided into a training set (18,672 clips), a test set (1,004 clips), and a full dataset (21,156 clips). It is released under the CC BY 4.0 license, and users must comply with citation requirements.
创建时间:
2026-05-05
原始信息汇总
数据集概述:MechVerse
MechVerse 是一个大规模机械装配动画视频数据集,专用于微调与评估生成式视频模型对机械运动的理解能力。
- 数据规模:包含 21,156 个视频片段,来自 1,357 个装配体,覆盖 141 个类别。
- 数据来源:PartNet-Mobility(904 个装配体)和精选的 CAD 装配体(453 个)。
- 标注信息:每个视频片段配有结构化自然语言提示。
复杂度分层(Complexity Tiers)
| 层级 | 片段数量 | 描述 |
|---|---|---|
| Easy(简单) | 15,720 | 独立部件运动(1–2 个部件) |
| Medium(中等) | 2,412 | 运动学耦合运动(3–8 个部件) |
| Hard(困难) | 3,024 | 密集耦合,10–50 个部件 |
片段多样性(Clip Variations)
每个装配体渲染 3 种速度(慢/中/快)、2–3 个相机视角、2 个运动方向(正向/反向)。所有片段为 32 帧、16 FPS(持续时间 2 秒)。
数据划分(Data Splits)
| 文件 | 片段数 |
|---|---|
train.json |
18,672 |
test.json |
1,004 |
full_dataset.json |
21,156 |
许可协议
采用 Creative Commons Attribution 4.0 International (CC BY 4.0) 许可协议。使用时需:
- 在出版物或产品中引用相关论文;
- 链接回本数据集:https://huggingface.co/datasets/Mayank-p3108/MechVerse;
- 声明对原始数据集的修改。
项目主页:https://mechverse.pages.dev/(提供交互式演示、可视化与模型比较)。
搜集汇总
数据集介绍

构建方式
MechVerse是一个大规模机械装配动画视频数据集,旨在提升生成式视频模型对机械运动的理解能力。该数据集由两个来源构成:PartNet-Mobility中的904个装配体以及经过筛选的453个CAD装配体,覆盖141个类别,共包含1,357个不同装配体。每个装配体被渲染为多个视频片段,并配备结构化的自然语言提示。在构建过程中,每个装配体以三种速度(慢速、中速、快速)、二至三个相机视角以及两种运动方向(正向、反向)进行渲染,最终生成32帧、16帧每秒(2秒时长)的视频片段,总计21,156个视频片段。
特点
MechVerse的核心特点在于其复杂度分层的设计。数据集将视频片段划分为三个复杂度等级:简单(15,720个片段)涉及1至2个零件的独立运动,中等(2,412个片段)包含3至8个零件的运动学耦合运动,困难(3,024个片段)则涵盖10至50个零件的高密度耦合运动。这种多层次结构为评估模型在不同机械运动复杂度上的表现提供了基准。此外,每个装配体具有多种变体,包括不同的速度、视角和运动方向,极大丰富了数据的多样性,有助于模型学习对机械运动多维度特征的泛化能力。
使用方法
MechVerse适用于微调和评估生成式视频模型对机械运动的理解能力。数据集提供了明确的数据划分:训练集包含18,672个片段,测试集包含1,004个片段,以及包含全部21,156个片段的完整数据集文件(full_dataset.json)。用户可下载数据集后,通过读取JSON文件索引视频片段和对应的自然语言提示,用于模型训练或评估。需要注意的是,该数据集采用CC BY 4.0许可协议,要求用户在使用时引用相关论文并注明数据集来源。
背景与挑战
背景概述
在人工智能与计算机视觉的交叉领域,机械运动理解是推动智能装配、机器人操作与数字孪生技术发展的关键瓶颈。现有视频生成模型虽在自然场景中表现卓越,却难以精准捕捉机械部件间的约束关系与动力学耦合。MechVerse数据集于近期由研究团队构建,依托PartNet-Mobility与精心筛选的CAD模型,汇集了涵盖141个类别的1,357个装配体、共计21,156个高质量视频片段。该数据集通过引入复杂度分层(简单、中等、困难)与多维度变化(速度、视角、运动方向),系统性地填补了机械装配动画生成与评估的空白,为生成式模型在工程领域的研究提供了标准化基准,显著推动了结构化运动理解的发展。
当前挑战
MechVerse数据集面临的核心挑战源于机械运动本身的复杂性与数据构建的高要求。在领域问题层面,现有视频生成模型缺乏对刚性部件间运动约束(如铰链、滑动副)的建模能力,难以区分独立运动与耦合运动,导致生成的机械动画在物理真实性与空间一致性上严重不足。在构建过程中,从原始CAD模型到可驱动动画的转换需要精准的装配关系解析与运动学链定义,跨数据源的风格差异(PartNet-Mobility与手工CAD模型)增加了特征对齐的难度。此外,复杂装配体中等离子耦合(10至50个部件)的渲染需兼顾视觉保真度与物理规律,而多速度、多视角采样的数据量激增也对存储、标注与索引提出了系统性挑战。
常用场景
经典使用场景
MechVerse数据集专为机械运动理解而生,其核心应用场景在于微调与评估生成式视频模型对机械装配动画的感知与生成能力。该数据集包含21,156个视频片段,覆盖从独立部件运动到密集耦合运动的多层次复杂度,为模型学习机械运动规律提供了结构化的视觉-文本对数据。研究者可借助该数据集训练模型理解零件间运动学耦合关系,实现从文本提示到机械装配动画的精准生成,推动生成式AI在物理世界运动逻辑建模中的发展。
实际应用
在实际应用中,MechVerse数据集可赋能智能制造与自动化设计领域。例如,基于该数据集训练的模型能够从自然语言指令(如“组装齿轮箱”)自动生成装配动画,辅助工程师进行产品可视化验证与操作流程设计。此外,该数据集开发的运动理解技术可迁移至机器人示教学习场景,帮助机器人模仿人类演示中的机械装配动作,提升工业自动化中的柔性作业能力与交互式培训系统效率。
衍生相关工作
MechVerse数据集的发布催生了多项相关研究工作。在算法层面,研究者基于其复杂度分级设计出层级运动生成框架,将独立部件运动与耦合运动分开建模,显著提升装配动画的物理合理性。在应用拓展上,部分工作利用该数据集训练的运动先验进行视频插值与运动编辑,实现了机械零件运动轨迹的实时操控与风格迁移。此外,该数据集还为机械结构自动设计领域提供了评估基准,衍生出融合CAD知识图的运动推理新范式。
以上内容由遇见数据集搜集并总结生成



