aec-bench
收藏Hugging Face2026-04-07 更新2026-04-08 收录
下载链接:
https://huggingface.co/datasets/nomic-ai/aec-bench
下载链接
链接失效反馈官方服务:
资源简介:
AEC-Bench 是一个多模态数据集,包含建筑、工程和施工(AEC)领域的真实文档,如施工图纸、平面图、进度表、规格书和提交材料。数据集包含 196 个任务实例,涵盖 9 种任务类型,分为三个范围级别:单页推理(intrasheet)、跨页推理(intradrawing)和跨文档项目级推理(intraproject)。每个任务实例包含指令、提示、配置、评分材料以及用于获取大型二进制文件的 manifest.jsonl 文件。数据集适用于视觉问答和问答任务的研究,采用 Apache 2.0 许可证。
创建时间:
2026-04-02
原始信息汇总
AEC-Bench 数据集概述
数据集基本信息
- 数据集名称: AEC-Bench
- 发布者: nomic-ai
- 许可证: Apache License 2.0
- 语言: 英语
- 多语言性: 单语
- 标注创建者: 专家生成
- 语言创建者: 专家生成
- 任务类别: 视觉问答、问答
- 标签: aec-bench, architecture, engineering, construction, vision-language, multimodal, text, image, benchmark, document-understanding, agentic, arxiv:2603.29199
数据集内容与结构
AEC-Bench 是一个多模态数据集,包含来自真实世界的建筑、工程和施工文档,例如施工图纸、平面图、进度表、规格书和提交材料。该数据集被组织为 196 个任务实例,用于评估和研究。
任务范围与类型
任务实例涵盖 3 个范围层级 和 9 种任务类型:
- 单页内:单张图纸推理。
- 详细技术审查:回答关于细节的局部技术问题(14 个实例)。
- 细节标题准确性:验证细节标题是否与绘制内容匹配(15 个实例)。
- 注释标注准确性:根据引用的元素检查标注文本(14 个实例)。
- 总计:43 个实例。
- 单图集内:同一图纸集中的多张图纸推理。
- 交叉引用解析:识别无法解析到有效目标的交叉引用(51 个实例)。
- 交叉引用追踪:查找引用给定目标细节的所有源位置(24 个实例)。
- 图纸索引一致性:比较图纸索引条目与标题栏的不匹配情况(14 个实例)。
- 总计:89 个实例。
- 单项目内:跨文档的项目级推理,涉及图纸、规格书和提交材料。
- 图纸导航:根据查询定位正确的文件、图纸和细节(12 个实例)。
- 规格书-图纸同步:识别规格书与图纸之间的冲突(16 个实例)。
- 提交材料审查:评估提交材料是否符合规格书和图纸要求(36 个实例)。
- 总计:64 个实例。
所有实例的存储路径为 tasks/<scope>/<type>/<instance>/。
数据访问与使用
- 任务数据:每个实例目录包含任务数据,如指令和提示(例如
instruction.md)、配置和评分材料(例如task.toml、gt.json)、测试以及environment/文件夹。 - 大型文件获取:图纸、规格书、提交材料等大型二进制文件不存储在此仓库中。需通过每个实例的
environment/manifest.jsonl文件获取。 manifest.jsonl文件:该文件包含 JSON 对象列表,每个对象包含:key:文件在https://nomic-public-data.com上的 HTTPS URL。dest:文件应保存在本地environment/目录下的相对路径/文件名。
- 下载步骤:使用
curl或wget等工具,下载manifest.jsonl中每个key对应的 URL,并将文件保存到environment/<dest>指定的位置。
相关资源
- GitHub 仓库:https://github.com/nomic-ai/aec-bench
- 论文:https://arxiv.org/abs/2603.29199
- 博客:https://www.nomic.ai/news/aec-bench-a-multimodal-benchmark-for-agentic-systems-in-architecture-engineering-and-construction
- 许可证全文:https://www.apache.org/licenses/LICENSE-2.0
引用信息
bibtex @misc{mankodiya2026aecbenchmultimodalbenchmarkagentic, title={AEC-Bench: A Multimodal Benchmark for Agentic Systems in Architecture, Engineering, and Construction}, author={Harsh Mankodiya and Chase Gallik and Theodoros Galanos and Andriy Mulyar}, year={2026}, eprint={2603.29199}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2603.29199}, }
搜集汇总
数据集介绍

构建方式
在建筑、工程与施工领域,文档的复杂性与多样性对智能系统的理解能力提出了严峻挑战。AEC-Bench数据集通过精心筛选真实的行业文档,如施工图纸、平面图、进度表和规范书等,构建了一个包含196个任务实例的多模态基准。这些实例被系统地划分为三个层次:单图纸推理、跨图纸推理以及跨文档项目级推理,涵盖了九种不同的任务类型,例如细节技术审查、交叉引用解析和规范图纸同步等。数据集的构建过程由领域专家主导,确保了任务设计的专业性与实用性,为评估智能代理在复杂工程环境中的表现提供了坚实基础。
特点
该数据集的核心特点在于其多层次、多任务的结构设计,能够全面模拟建筑、工程与施工领域的实际工作流程。数据集不仅融合了文本与图像两种模态的信息,还通过三个不同的范围层级——单图纸、跨图纸和跨项目——来评估系统在不同粒度上的推理能力。每个任务实例都配备了详细的指令、配置文件和真实答案,同时采用独立的清单文件来管理外部大型二进制文档的获取,这种设计既保证了数据集的轻量化,又维护了任务的真实性与复杂性。这种结构使得AEC-Bench成为推动多模态理解和智能代理研究的重要资源。
使用方法
研究人员可通过访问数据集目录中的任务实例来使用AEC-Bench,每个实例包含任务说明、配置及评估材料。由于大型工程文档未直接存储于仓库中,用户需依据每个实例环境目录下的清单文件,从指定URL下载所需的图纸、规范书等文件,并保存至本地相应路径。完成文件准备后,可按照任务指令执行视觉问答或文档理解等操作,并利用提供的真实答案进行性能评估。数据集支持通过Docker环境实现任务的可复现性,为开发与测试建筑领域的智能系统提供了标准化框架。
背景与挑战
背景概述
在建筑、工程与施工(AEC)领域,文档理解长期面临多模态信息整合的复杂挑战。AEC-Bench数据集由Nomic AI的研究团队于2026年创建,旨在为智能体系统提供一个全面的评估基准。该数据集聚焦于解决AEC文档中视觉与文本信息的协同理解问题,涵盖了从单张图纸到跨文档项目级别的多层次推理任务。其核心研究问题在于如何通过结构化任务设计,推动多模态人工智能在专业工程场景中的实际应用,为自动化审查、合规性检查等关键流程提供技术支撑,对提升行业数字化水平具有显著影响力。
当前挑战
AEC-Bench所针对的领域挑战在于AEC文档固有的复杂性与专业性,这些文档通常包含高密度的技术符号、跨页引用以及异构数据源,要求模型具备细粒度的空间推理与语义关联能力。构建过程中的挑战则体现在真实世界数据的获取与标注上,包括如何确保图纸、规范书和提交材料等敏感商业文件的合法收集,以及由领域专家进行高质量、一致性注释的困难。此外,设计涵盖不同范围层级的任务实例,并维持任务难度与真实场景的匹配度,亦是数据集构建中的关键难点。
常用场景
经典使用场景
在建筑、工程与施工领域,文档理解长期面临多模态信息整合的挑战。AEC-Bench数据集通过提供涵盖图纸、规范与提交材料的真实文档,为评估智能体系统在跨文档推理任务中的性能奠定了基准。其经典使用场景聚焦于自动化审查流程,例如验证细节标题准确性、追踪交叉引用一致性以及识别规范与图纸间的冲突,这些任务要求模型同时处理视觉与文本信息,模拟专业人员在项目生命周期中的决策过程。
解决学术问题
该数据集针对多模态人工智能在专业领域应用中的核心难题,即如何实现跨模态的细粒度语义对齐与复杂逻辑推理。它系统性地解决了学术研究中长期存在的几个问题:缺乏标准化的评估基准来量化模型在建筑文档理解中的能力;难以模拟真实世界中从单页到项目级的多层次推理需求;以及缺少整合图纸、规范与提交材料的综合性任务框架。通过提供结构化的任务分类与标注,AEC-Bench推动了多模态代理系统、文档智能与领域自适应学习等方向的研究进展。
衍生相关工作
围绕AEC-Bench数据集,学术界与工业界已衍生出一系列探索性研究。经典工作主要集中在开发专用于建筑文档的多模态预训练模型,这些模型通过在该数据集上进行微调,提升了在细节识别与跨页推理任务上的性能。同时,研究者们构建了基于智能体架构的自动化审查管道,能够执行从数据提取到矛盾解析的端到端任务。此外,该数据集也促进了评估方法的创新,例如引入人类专家评分作为基准,以更准确地衡量模型在专业领域中的实用性与可靠性。
以上内容由遇见数据集搜集并总结生成



