SADU
收藏github2026-03-31 更新2026-03-27 收录
下载链接:
https://github.com/ShuyinOuyang/SADU
下载链接
链接失效反馈官方服务:
资源简介:
SADU是一个用于评估多模态模型在软件架构图理解上的基准测试,专注于软件工程图的问题回答,强调如图推理任务(如计数和检索)。该仓库包括基准数据、模型响应生成脚本、评估代码和结果分析工具。
SADU is a benchmark designed to evaluate multimodal models' comprehension of software architecture diagrams. It focuses on question answering over software engineering diagrams, with an emphasis on diagrammatic reasoning tasks such as counting and retrieval. This benchmark includes diagram samples, question-answer pairs, model outputs, and analytical scripts, supporting a reproducible benchmarking workflow.
创建时间:
2026-03-13
原始信息汇总
SADU 数据集概述
数据集名称
SADU: A Benchmark for Software Architecture Diagram Understanding
数据集简介
SADU 是一个用于评估多模态模型在软件架构图理解任务上的基准。该数据集专注于软件工程图表的问答,强调如图表推理任务,例如计数和检索。
数据集目的
旨在支持对多模态模型理解软件工程图表能力的系统性评估,而非仅从图像中读取文本。该基准适用于研究图表感知和结构推理。
数据集内容与结构
数据集主要包含两个部分:
dataset/SAD/:基准数据,按图表类型分组。behavior/structural/ER/
dataset/SAD_hard/:用于案例研究的困难示例,按图表类型分组。long_arrow/multiple_arrow/not_right_arrow/overlap_arrow/
主要任务与问题类型
基准围绕多个图表类别组织,支持推理密集型问题类型,例如:
- 计数:例如,实体、组件或关系的数量。
- 检索:例如,识别连接的元素、源、目标或相关实体集。
数据获取
SADU 基准可以从 https://github.com/ShuyinOuyang/SADU/blob/main/dataset/SAD 下载。
相关资源
- 标注指南位于:https://github.com/ShuyinOuyang/SADU/blob/main/src/benchmark_construction/labeling_scripts/SADU%20label%20guide.pdf
- 仓库包含基准数据、模型响应生成脚本、评估代码和结果分析工具。
搜集汇总
数据集介绍

构建方式
在软件工程领域,软件架构图是系统设计与沟通的核心工具,其理解能力对多模态模型提出了严峻挑战。SADU数据集的构建过程体现了严谨的系统性,通过从原始图表源文件中提取内容,并转换为中间JSON表示形式,确保数据格式的统一性与可处理性。随后,基于图表的结构与语义特征,生成涵盖计数与检索等推理任务的问题-答案对,同时通过专门的脚本进行格式验证与质量检查。为进一步探索模型边界,该数据集还专门构建了包含长箭头、多重箭头等复杂场景的困难样例集合,从而形成层次分明、覆盖全面的评估基准。
特点
SADU数据集专注于软件架构图的理解评估,其核心特点在于强调超越单纯文本识别的深层图表推理能力。数据集依据图表类型系统组织,涵盖行为图、结构图与实体关系图等多种类别,并针对计数与检索这两类对空间与逻辑关系要求较高的任务设计了专门的问题集。这种设计使得数据集不仅能评估模型对图表元素的感知能力,更能深入检验其进行结构化推理的效能。此外,数据集提供的配套工具链完整,从基准构建、模型推理到评估与分析,形成了一套可复现的标准化研究流程,为系统性比较不同多模态模型的性能提供了坚实基础。
使用方法
使用SADU数据集开展研究遵循一套清晰的工作流。研究者首先需克隆代码仓库并配置相应的Python环境与依赖。基准数据通常存放于`dataset/SAD/`目录下,可据此进行初步的数据审查。随后,利用`src/benchmark_construction/`中的脚本可进行数据预处理或生成新的问题-答案对。模型推理阶段,通过`src/generation/`目录下提供的脚本,能够便捷地调用如GPT、Gemini等多种主流多模态模型,并在指定目录中保存原始输出。评估环节则提供了基于规则与基于大语言模型评判官的两种互补方案,对模型响应进行打分。最后,借助结果分析脚本,研究者可以汇总性能指标并深入剖析模型在特定任务上的错误模式,从而获得全面的评估见解。
背景与挑战
背景概述
软件架构图作为系统结构与行为的关键可视化工具,在软件工程领域具有不可或缺的地位。SADU数据集由相关研究团队于近期构建,旨在系统评估多模态模型对软件架构图的理解能力。该数据集聚焦于软件工程图的问答任务,尤其强调计数与检索等图推理任务,为研究界提供了一个包含多种图类型与复杂推理问题的标准化基准。其创建不仅推动了多模态人工智能在专业领域应用的发展,也为软件工程与计算机视觉的交叉研究提供了重要数据支持。
当前挑战
SADU数据集致力于解决软件架构图理解这一领域问题,其核心挑战在于多模态模型需准确解析图中复杂的空间关系与语义逻辑,例如对长箭头、多重箭头及重叠箭头的识别与推理。在构建过程中,数据集面临标注一致性与多样性的平衡难题,需确保不同图类别(如行为图、结构图、实体关系图)的问答对既涵盖专业术语又保持逻辑严谨。此外,生成具有足够难度与代表性的硬例子,以有效评估模型在边缘情况下的性能,亦是构建阶段的关键挑战。
常用场景
经典使用场景
在软件工程领域,软件架构图是描述系统结构和行为的关键视觉化工具,而SADU数据集为评估多模态模型在此类图表上的理解能力提供了标准化的基准测试环境。该数据集最经典的使用场景集中于对架构图进行问答式推理,特别是针对计数和检索任务,例如统计图中的实体数量或识别特定组件间的连接关系,从而系统性地检验模型对图表内容的感知与逻辑分析能力。
实际应用
在实际应用中,SADU数据集可支持自动化软件文档分析、智能代码生成辅助以及系统设计审查工具的开发。例如,通过集成该数据集的评估框架,工程团队能够构建能够自动解析架构图、回答设计相关问题的智能助手,从而提升软件维护效率和设计沟通的准确性,为软件生命周期管理提供切实可行的智能化解决方案。
衍生相关工作
围绕SADU数据集,已衍生出一系列专注于软件工程多模态理解的经典研究工作。这些工作通常扩展了数据集的评估范围,例如开发针对特定图表类型(如行为图、结构图或实体关系图)的专用模型,或探索结合规则与大型语言模型的混合评估方法。同时,部分研究进一步推动了硬样本分析,深入探讨模型在箭头重叠、长距离连接等复杂场景下的失败模式,为模型优化提供了关键见解。
以上内容由遇见数据集搜集并总结生成



