five

VideoCAD

收藏
arXiv2025-05-31 更新2025-06-03 收录
下载链接:
https://github.com/BrandonMan123/VideoCAD
下载链接
链接失效反馈
官方服务:
资源简介:
VideoCAD是一个大规模的合成数据集,包含超过41,000个注解视频记录的CAD操作,使用自动化框架从人类制造的CAD设计中收集高保真的UI操作数据。与现有数据集相比,VideoCAD在现实世界工程任务中提供了数量级更高的UI交互学习复杂性,时间跨度比其他数据集长20倍。

VideoCAD is a large-scale synthetic dataset containing over 41,000 annotated video recordings of CAD operations. It collects high-fidelity UI interaction data from human-created CAD designs via an automated framework. Compared with existing datasets, VideoCAD offers an order-of-magnitude higher complexity of UI interaction learning in real-world engineering tasks, and has a timespan 20 times longer than other datasets.
提供机构:
麻省理工学院机械工程系
创建时间:
2025-05-31
原始信息汇总

VideoCAD数据集概述

基本信息

  • 数据集名称:VideoCAD
  • 托管平台:GitHub
  • 托管地址:https://github.com/BrandonMan123/VideoCAD

数据集描述

(注:根据提供的README内容,该数据集未包含具体描述信息)

搜集汇总
数据集介绍
main_image_url
构建方式
VideoCAD数据集的构建采用了高度自动化的合成方法,通过解析人类设计的参数化CAD模型(源自DeepCAD数据集)并映射到Onshape平台的UI操作序列。具体流程包括:(1) 基于规则的程序化bot执行草图绘制、挤出等建模操作;(2) 60fps屏幕录制与动作日志的亚秒级对齐;(3) 通过DINOv2视觉嵌入进行几何相似度质检,保留41,005个高质量视频样本。该流程创新性地引入了人类操作启发式策略,如随机化操作延迟和表面采样,以增强数据真实性。
特点
作为首个面向专业CAD软件交互的大规模视频数据集,VideoCAD具有三大核心特征:(1) 超长时序依赖性,平均任务跨度达186步,是现有GUI数据集的20倍;(2) 多模态标注体系,同时包含像素级UI操作(点击、键入)和高级建模语义(挤出、循环);(3) 三维空间推理需求,要求智能体理解草图平面、几何约束等机械设计概念。其6,740个平均界面元素复杂度远超网页/移动端数据集,为AI代理提供了接近工业级的设计环境挑战。
使用方法
该数据集支持两种主要应用范式:(1) 行为克隆训练:以视频帧序列和CAD目标图像为输入,通过Transformer架构预测后续UI动作,实现CAD建模过程自动化;(2) 三维视觉问答评估:从视频中衍生1,200道多选题,测试大模型在挤出计数、草图排序等空间推理任务的表现。使用需注意:建议采用5%验证集调优动作预测超参数,对于VQA任务应严格限制模型仅基于视频视觉线索作答,避免数据泄露。
背景与挑战
背景概述
VideoCAD是由麻省理工学院机械工程系的研究团队于2025年推出的一个大规模视频数据集,专注于从计算机辅助设计(CAD)软件中学习用户界面交互和三维推理。该数据集包含超过41,000个标注的CAD操作视频,通过自动化框架从人工设计的CAD模型中收集高保真的UI动作数据。VideoCAD的创建旨在解决专业工程设计工具中复杂、长时间跨度的用户交互问题,填补了现有数据集在捕捉高复杂度UI交互需求方面的空白。该数据集不仅为学习CAD交互提供了丰富的资源,还为评估多模态大语言模型的空间推理和视频理解能力提供了基准。
当前挑战
VideoCAD面临的挑战主要包括两个方面:领域问题的挑战和构建过程中的挑战。在领域问题方面,CAD软件的复杂性和高精度要求使得UI交互学习变得极具挑战性,尤其是在长时间跨度的任务中需要精确的动作定位、多模态和空间推理。构建过程中的挑战包括如何从人类设计的CAD模型中生成高质量的UI动作数据,以及如何确保视频和动作标注的时间对齐。此外,数据集的质量控制也是一个重要挑战,需要通过视觉嵌入比较来过滤不准确的再现。
常用场景
经典使用场景
在计算机辅助设计(CAD)领域,VideoCAD数据集为研究UI交互学习和3D空间推理提供了丰富的视频资源。该数据集包含超过41,000个标注的CAD操作视频,涵盖了从基础草图到复杂3D模型的完整构建过程。研究人员可以利用这些视频数据,训练模型理解和预测用户在CAD软件中的操作序列,从而实现对复杂设计任务的自动化支持。
衍生相关工作
VideoCAD数据集衍生了一系列经典研究工作,其中最突出的是VIDEOCADFORMER模型,该模型通过Transformer架构直接从视频中学习CAD交互,在长时程任务中表现优异。此外,基于VideoCAD的VQA基准测试(VIDEOCADQA)为评估多模态大语言模型的3D推理能力提供了标准。这些工作不仅推动了CAD领域的AI研究,还为计算机视觉、强化学习和多模态学习等领域的交叉研究提供了新的方向。
数据集最近研究
最新研究方向
随着人工智能技术在计算机辅助设计(CAD)领域的深入应用,VideoCAD数据集的推出标志着UI交互学习与三维空间推理研究的重要突破。该数据集通过41,000余条带注释的CAD操作视频,首次实现了对专业工程软件中长时程、高精度交互行为的系统性捕捉。当前研究聚焦于三大前沿方向:基于视频的UI行为克隆模型开发,其中VideoCADFormer架构通过Transformer模型实现了CAD界面操作的精准预测;多模态大语言模型在三维空间推理能力的评估,相关VQA基准测试揭示了现有模型在工程任务中的空间认知局限;以及跨模态表征学习,探索视觉输入与参数化CAD序列的深层关联。这一研究热潮与工业4.0背景下智能设计自动化需求相呼应,为降低CAD软件使用门槛、提升设计效率提供了新的技术路径,同时推动了人机交互、计算机视觉与工程设计的跨学科融合。
相关研究论文
  • 1
    VideoCAD: A Large-Scale Video Dataset for Learning UI Interactions and 3D Reasoning from CAD Software麻省理工学院机械工程系 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作