aec-bench

Hugging Face2026-04-07 更新2026-04-08 收录

下载链接：

https://huggingface.co/datasets/nomic-ai/aec-bench

下载链接

链接失效反馈

官方服务：

资源简介：

AEC-Bench 是一个多模态数据集，包含建筑、工程和施工（AEC）领域的真实文档，如施工图纸、平面图、进度表、规格书和提交材料。数据集包含 196 个任务实例，涵盖 9 种任务类型，分为三个范围级别：单页推理（intrasheet）、跨页推理（intradrawing）和跨文档项目级推理（intraproject）。每个任务实例包含指令、提示、配置、评分材料以及用于获取大型二进制文件的 manifest.jsonl 文件。数据集适用于视觉问答和问答任务的研究，采用 Apache 2.0 许可证。

创建时间：

2026-04-02

原始信息汇总

AEC-Bench 数据集概述

数据集基本信息

数据集名称: AEC-Bench
发布者: nomic-ai
许可证: Apache License 2.0
语言: 英语
多语言性: 单语
标注创建者: 专家生成
语言创建者: 专家生成
任务类别: 视觉问答、问答
标签: aec-bench, architecture, engineering, construction, vision-language, multimodal, text, image, benchmark, document-understanding, agentic, arxiv:2603.29199

数据集内容与结构

AEC-Bench 是一个多模态数据集，包含来自真实世界的建筑、工程和施工文档，例如施工图纸、平面图、进度表、规格书和提交材料。该数据集被组织为 196 个任务实例，用于评估和研究。

任务范围与类型

任务实例涵盖 3 个范围层级 和 9 种任务类型：

单页内：单张图纸推理。
- 详细技术审查：回答关于细节的局部技术问题（14 个实例）。
- 细节标题准确性：验证细节标题是否与绘制内容匹配（15 个实例）。
- 注释标注准确性：根据引用的元素检查标注文本（14 个实例）。
- 总计：43 个实例。
单图集内：同一图纸集中的多张图纸推理。
- 交叉引用解析：识别无法解析到有效目标的交叉引用（51 个实例）。
- 交叉引用追踪：查找引用给定目标细节的所有源位置（24 个实例）。
- 图纸索引一致性：比较图纸索引条目与标题栏的不匹配情况（14 个实例）。
- 总计：89 个实例。
单项目内：跨文档的项目级推理，涉及图纸、规格书和提交材料。
- 图纸导航：根据查询定位正确的文件、图纸和细节（12 个实例）。
- 规格书-图纸同步：识别规格书与图纸之间的冲突（16 个实例）。
- 提交材料审查：评估提交材料是否符合规格书和图纸要求（36 个实例）。
- 总计：64 个实例。

所有实例的存储路径为 tasks/<scope>/<type>/<instance>/。

数据访问与使用

任务数据：每个实例目录包含任务数据，如指令和提示（例如 instruction.md）、配置和评分材料（例如 task.toml、gt.json）、测试以及 environment/ 文件夹。
大型文件获取：图纸、规格书、提交材料等大型二进制文件不存储在此仓库中。需通过每个实例的 environment/manifest.jsonl 文件获取。
manifest.jsonl 文件：该文件包含 JSON 对象列表，每个对象包含：
- key：文件在 https://nomic-public-data.com 上的 HTTPS URL。
- dest：文件应保存在本地 environment/ 目录下的相对路径/文件名。
下载步骤：使用 curl 或 wget 等工具，下载 manifest.jsonl 中每个 key 对应的 URL，并将文件保存到 environment/<dest> 指定的位置。

引用信息

bibtex @misc{mankodiya2026aecbenchmultimodalbenchmarkagentic, title={AEC-Bench: A Multimodal Benchmark for Agentic Systems in Architecture, Engineering, and Construction}, author={Harsh Mankodiya and Chase Gallik and Theodoros Galanos and Andriy Mulyar}, year={2026}, eprint={2603.29199}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2603.29199}, }

搜集汇总

数据集介绍

构建方式

在建筑、工程与施工领域，文档的复杂性与多样性对智能系统的理解能力提出了严峻挑战。AEC-Bench数据集通过精心筛选真实的行业文档，如施工图纸、平面图、进度表和规范书等，构建了一个包含196个任务实例的多模态基准。这些实例被系统地划分为三个层次：单图纸推理、跨图纸推理以及跨文档项目级推理，涵盖了九种不同的任务类型，例如细节技术审查、交叉引用解析和规范图纸同步等。数据集的构建过程由领域专家主导，确保了任务设计的专业性与实用性，为评估智能代理在复杂工程环境中的表现提供了坚实基础。

特点

该数据集的核心特点在于其多层次、多任务的结构设计，能够全面模拟建筑、工程与施工领域的实际工作流程。数据集不仅融合了文本与图像两种模态的信息，还通过三个不同的范围层级——单图纸、跨图纸和跨项目——来评估系统在不同粒度上的推理能力。每个任务实例都配备了详细的指令、配置文件和真实答案，同时采用独立的清单文件来管理外部大型二进制文档的获取，这种设计既保证了数据集的轻量化，又维护了任务的真实性与复杂性。这种结构使得AEC-Bench成为推动多模态理解和智能代理研究的重要资源。

使用方法

研究人员可通过访问数据集目录中的任务实例来使用AEC-Bench，每个实例包含任务说明、配置及评估材料。由于大型工程文档未直接存储于仓库中，用户需依据每个实例环境目录下的清单文件，从指定URL下载所需的图纸、规范书等文件，并保存至本地相应路径。完成文件准备后，可按照任务指令执行视觉问答或文档理解等操作，并利用提供的真实答案进行性能评估。数据集支持通过Docker环境实现任务的可复现性，为开发与测试建筑领域的智能系统提供了标准化框架。

背景与挑战

背景概述

在建筑、工程与施工（AEC）领域，文档理解长期面临多模态信息整合的复杂挑战。AEC-Bench数据集由Nomic AI的研究团队于2026年创建，旨在为智能体系统提供一个全面的评估基准。该数据集聚焦于解决AEC文档中视觉与文本信息的协同理解问题，涵盖了从单张图纸到跨文档项目级别的多层次推理任务。其核心研究问题在于如何通过结构化任务设计，推动多模态人工智能在专业工程场景中的实际应用，为自动化审查、合规性检查等关键流程提供技术支撑，对提升行业数字化水平具有显著影响力。

当前挑战

AEC-Bench所针对的领域挑战在于AEC文档固有的复杂性与专业性，这些文档通常包含高密度的技术符号、跨页引用以及异构数据源，要求模型具备细粒度的空间推理与语义关联能力。构建过程中的挑战则体现在真实世界数据的获取与标注上，包括如何确保图纸、规范书和提交材料等敏感商业文件的合法收集，以及由领域专家进行高质量、一致性注释的困难。此外，设计涵盖不同范围层级的任务实例，并维持任务难度与真实场景的匹配度，亦是数据集构建中的关键难点。

常用场景

经典使用场景

在建筑、工程与施工领域，文档理解长期面临多模态信息整合的挑战。AEC-Bench数据集通过提供涵盖图纸、规范与提交材料的真实文档，为评估智能体系统在跨文档推理任务中的性能奠定了基准。其经典使用场景聚焦于自动化审查流程，例如验证细节标题准确性、追踪交叉引用一致性以及识别规范与图纸间的冲突，这些任务要求模型同时处理视觉与文本信息，模拟专业人员在项目生命周期中的决策过程。

解决学术问题

该数据集针对多模态人工智能在专业领域应用中的核心难题，即如何实现跨模态的细粒度语义对齐与复杂逻辑推理。它系统性地解决了学术研究中长期存在的几个问题：缺乏标准化的评估基准来量化模型在建筑文档理解中的能力；难以模拟真实世界中从单页到项目级的多层次推理需求；以及缺少整合图纸、规范与提交材料的综合性任务框架。通过提供结构化的任务分类与标注，AEC-Bench推动了多模态代理系统、文档智能与领域自适应学习等方向的研究进展。

衍生相关工作

围绕AEC-Bench数据集，学术界与工业界已衍生出一系列探索性研究。经典工作主要集中在开发专用于建筑文档的多模态预训练模型，这些模型通过在该数据集上进行微调，提升了在细节识别与跨页推理任务上的性能。同时，研究者们构建了基于智能体架构的自动化审查管道，能够执行从数据提取到矛盾解析的端到端任务。此外，该数据集也促进了评估方法的创新，例如引入人类专家评分作为基准，以更准确地衡量模型在专业领域中的实用性与可靠性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集