DesignQA

Name: DesignQA
Creator: 麻省理工学院
Published: 2024-04-12 00:59:54
License: 暂无描述

arXiv2024-04-12 更新2024-06-21 收录

下载链接：

https://github.com/anniedoris/design_qa/

下载链接

链接失效反馈

官方服务：

资源简介：

DesignQA是一个专为评估大型语言模型在理解工程技术文档方面的能力而设计的多模态基准数据集。该数据集由麻省理工学院与Autodesk研究团队合作开发，包含1451个问题，这些问题基于Formula SAE学生竞赛的文本设计要求、CAD图像和工程图纸等多模态数据。DesignQA旨在通过模拟真实世界工程挑战，测试模型在处理复杂工程设计要求时的理解和应用能力。数据集的应用领域主要集中在工程设计自动化，旨在通过AI辅助，使人类设计师能更快、更有效地创造出更优质的产品。

DesignQA is a multimodal benchmark dataset specifically developed to evaluate the capabilities of large language models (LLMs) in understanding engineering technical documents. It was collaboratively created by the Massachusetts Institute of Technology (MIT) and the Autodesk Research team, and contains 1,451 questions based on multimodal data including text design requirements, CAD images, and engineering drawings from the Formula SAE student competition. DesignQA aims to test models' comprehension and application abilities when handling complex engineering design requirements by simulating real-world engineering challenges. Its primary application domain is engineering design automation, with the objective of enabling human designers to produce higher-quality products faster and more efficiently through AI assistance.

提供机构：

麻省理工学院

创建时间：

2024-04-12

搜集汇总

数据集介绍

构建方式

在工程设计与人工智能交叉领域，DesignQA数据集的构建体现了对真实世界工程挑战的深刻洞察。该数据集以Formula SAE学生竞赛的技术文档为基础，通过整合多模态数据——包括文本设计需求、CAD图像和工程图纸——精心构建了1451个问题-答案对。构建过程涉及与MIT Motorsports团队的紧密合作，确保问题反映实际设计需求。数据生成采用程序化与人工审核相结合的方式：规则提取问题通过脚本自动从140页规则文档中解析生成；规则理解与合规性问题则基于团队提供的三维CAD模型，将其转换为多视角二维图像、特写视图及工程图纸，并由领域专家手工设计与验证，以保证问题的高质量与相关性。

特点

DesignQA的独特之处在于其多源文档接地的视觉问答设计，这区别于多数现有基准。数据集中的输入图像与参考文档源自不同出处，模拟了工程实践中常见的跨模态信息合成场景。该基准划分为规则提取、规则理解与规则合规三大模块，每个模块进一步细分为两个子集，分别对应工程师在设计过程中执行的具体任务。这种结构化的设计使得评估能够精细地揭示模型在理解复杂工程文档方面的能力与局限。此外，数据集配备了自动评估指标，如F1分数、BLEU和ROUGE，支持对多模态大语言模型性能的高效量化与比较。

使用方法

使用DesignQA进行评估时，研究者需将多模态大语言模型置于模拟工程设计的问答环境中。基准要求模型同时处理长文本规则文档与多种形式的视觉输入（如多视图CAD图像、工程图纸），并回答涉及规则定位、术语理解及设计合规性的问题。评估流程支持零样本设置，模型可通过上下文窗口直接接收完整规则文档，或借助检索增强生成技术获取相关片段。对于每个子集，预测答案将与地面真值通过相应指标（如规则提取使用F1词袋分数，合规性问题使用准确率）进行自动对比。该基准旨在系统化地测试模型在合成跨模态信息、解析技术规范方面的能力，为AI辅助工程设计的发展提供标准化评估框架。

背景与挑战

背景概述

DesignQA数据集由麻省理工学院与Autodesk研究团队于2024年联合推出，旨在评估多模态大语言模型在工程文档理解与应用方面的能力。该数据集以Formula SAE学生竞赛的技术规范为蓝本，融合了文本设计需求、CAD图像与工程图纸等多模态数据，聚焦于工程设计中规则提取、理解与合规性检查等核心任务。其创建标志着人工智能在辅助工程设计自动化领域迈出了关键一步，为后续研究提供了首个面向真实工程场景的零样本基准测试平台。

当前挑战

DesignQA所针对的领域挑战在于多模态大语言模型对复杂工程文档的深度解析与跨模态信息融合能力不足，尤其在长文本规则提取、视觉-文本异构源对齐以及工程图纸维度解析等方面存在显著局限。构建过程中的挑战包括：如何将三维CAD模型有效转化为二维图像以保留空间信息；在缺乏大规模标注数据的情况下，依赖领域专家手动构建高质量问答对；以及设计能够自动评估模型在规则理解、合规性判断等细分任务上性能的多样化评价指标。

常用场景

经典使用场景

在工程设计与自动化领域，DesignQA数据集被广泛用于评估多模态大语言模型在理解和应用技术文档中工程需求的能力。该数据集基于Formula SAE学生竞赛的真实工程挑战构建，融合了文本设计需求、CAD图像和工程图纸等多模态数据，为模型提供了模拟实际设计流程的测试环境。其经典使用场景包括模型在零样本设置下对规则提取、规则理解和规则合规性等任务的性能评估，这些任务模拟了工程师在设计过程中必须执行的核心活动，从而为AI辅助工程设计提供了基准测试框架。

衍生相关工作

基于DesignQA数据集，衍生了一系列相关经典研究工作。例如，研究团队利用该基准评估了GPT-4和LLaVA等先进多模态模型，揭示了它们在处理工程文档时的性能差距，并提出了改进检索增强生成和提示工程等方法的建议。此外，该数据集激发了后续研究关注多模态检索、模型微调以及混合规则与深度学习方法的探索，为工程领域专用AI模型的开发提供了方向。这些工作不仅扩展了多模态语言模型的应用边界，也为未来智能设计系统的构建提供了理论和技术支持。

数据集最近研究