VideoCAD

Name: VideoCAD
Creator: 麻省理工学院机械工程系
Published: 2025-05-31 01:39:52
License: 暂无描述

arXiv2025-05-31 更新2025-06-03 收录

下载链接：

https://github.com/BrandonMan123/VideoCAD

下载链接

链接失效反馈

官方服务：

资源简介：

VideoCAD是一个大规模的合成数据集，包含超过41,000个注解视频记录的CAD操作，使用自动化框架从人类制造的CAD设计中收集高保真的UI操作数据。与现有数据集相比，VideoCAD在现实世界工程任务中提供了数量级更高的UI交互学习复杂性，时间跨度比其他数据集长20倍。

VideoCAD is a large-scale synthetic dataset containing over 41,000 annotated video recordings of CAD operations. It collects high-fidelity UI interaction data from human-created CAD designs via an automated framework. Compared with existing datasets, VideoCAD offers an order-of-magnitude higher complexity of UI interaction learning in real-world engineering tasks, and has a timespan 20 times longer than other datasets.

提供机构：

麻省理工学院机械工程系

创建时间：

2025-05-31

原始信息汇总

VideoCAD数据集概述

基本信息

数据集名称：VideoCAD
托管平台：GitHub
托管地址：https://github.com/BrandonMan123/VideoCAD

数据集描述

（注：根据提供的README内容，该数据集未包含具体描述信息）

搜集汇总

数据集介绍

构建方式

VideoCAD数据集的构建采用了高度自动化的合成方法，通过解析人类设计的参数化CAD模型（源自DeepCAD数据集）并映射到Onshape平台的UI操作序列。具体流程包括：(1) 基于规则的程序化bot执行草图绘制、挤出等建模操作；(2) 60fps屏幕录制与动作日志的亚秒级对齐；(3) 通过DINOv2视觉嵌入进行几何相似度质检，保留41,005个高质量视频样本。该流程创新性地引入了人类操作启发式策略，如随机化操作延迟和表面采样，以增强数据真实性。

特点

作为首个面向专业CAD软件交互的大规模视频数据集，VideoCAD具有三大核心特征：(1) 超长时序依赖性，平均任务跨度达186步，是现有GUI数据集的20倍；(2) 多模态标注体系，同时包含像素级UI操作（点击、键入）和高级建模语义（挤出、循环）；(3) 三维空间推理需求，要求智能体理解草图平面、几何约束等机械设计概念。其6,740个平均界面元素复杂度远超网页/移动端数据集，为AI代理提供了接近工业级的设计环境挑战。

使用方法

该数据集支持两种主要应用范式：(1) 行为克隆训练：以视频帧序列和CAD目标图像为输入，通过Transformer架构预测后续UI动作，实现CAD建模过程自动化；(2) 三维视觉问答评估：从视频中衍生1,200道多选题，测试大模型在挤出计数、草图排序等空间推理任务的表现。使用需注意：建议采用5%验证集调优动作预测超参数，对于VQA任务应严格限制模型仅基于视频视觉线索作答，避免数据泄露。

背景与挑战

背景概述

VideoCAD是由麻省理工学院机械工程系的研究团队于2025年推出的一个大规模视频数据集，专注于从计算机辅助设计（CAD）软件中学习用户界面交互和三维推理。该数据集包含超过41,000个标注的CAD操作视频，通过自动化框架从人工设计的CAD模型中收集高保真的UI动作数据。VideoCAD的创建旨在解决专业工程设计工具中复杂、长时间跨度的用户交互问题，填补了现有数据集在捕捉高复杂度UI交互需求方面的空白。该数据集不仅为学习CAD交互提供了丰富的资源，还为评估多模态大语言模型的空间推理和视频理解能力提供了基准。

当前挑战

VideoCAD面临的挑战主要包括两个方面：领域问题的挑战和构建过程中的挑战。在领域问题方面，CAD软件的复杂性和高精度要求使得UI交互学习变得极具挑战性，尤其是在长时间跨度的任务中需要精确的动作定位、多模态和空间推理。构建过程中的挑战包括如何从人类设计的CAD模型中生成高质量的UI动作数据，以及如何确保视频和动作标注的时间对齐。此外，数据集的质量控制也是一个重要挑战，需要通过视觉嵌入比较来过滤不准确的再现。

常用场景

经典使用场景

在计算机辅助设计（CAD）领域，VideoCAD数据集为研究UI交互学习和3D空间推理提供了丰富的视频资源。该数据集包含超过41,000个标注的CAD操作视频，涵盖了从基础草图到复杂3D模型的完整构建过程。研究人员可以利用这些视频数据，训练模型理解和预测用户在CAD软件中的操作序列，从而实现对复杂设计任务的自动化支持。

衍生相关工作

VideoCAD数据集衍生了一系列经典研究工作，其中最突出的是VIDEOCADFORMER模型，该模型通过Transformer架构直接从视频中学习CAD交互，在长时程任务中表现优异。此外，基于VideoCAD的VQA基准测试（VIDEOCADQA）为评估多模态大语言模型的3D推理能力提供了标准。这些工作不仅推动了CAD领域的AI研究，还为计算机视觉、强化学习和多模态学习等领域的交叉研究提供了新的方向。

数据集最近研究