AEC-Bench

github2026-04-02 更新2026-04-04 收录

下载链接：

https://github.com/nomic-ai/aec-bench

下载链接

链接失效反馈

官方服务：

资源简介：

AEC-Bench是一个多模态评估基准，用于评估在真实世界的建筑、工程和施工（AEC）文档上操作的AI代理。该基准包含196个任务实例，涵盖9种任务类型，分为三个范围级别：单页推理、跨页推理和项目级跨文档推理。

AEC-Bench is a multimodal evaluation benchmark designed to assess AI Agents that operate on real-world Architecture, Engineering, and Construction (AEC) documents. This benchmark contains 196 task instances covering 9 task types, and is categorized into three scope levels: single-page reasoning, cross-page reasoning, and project-level cross-document reasoning.

创建时间：

2026-03-31

原始信息汇总

AEC-Bench 数据集概述

数据集基本信息

数据集名称：AEC-Bench: A Multimodal Benchmark for Agentic Systems in Architecture, Engineering, and Construction
发布机构：Nomic AI
相关论文：arXiv:2603.29199
数据集地址：https://huggingface.co/datasets/nomic-ai/aec-bench
许可证：Apache License, Version 2.0

数据集简介

AEC-Bench 是一个用于评估在真实世界建筑、工程和施工（AEC）文档上操作的AI智能体的多模态基准测试。它使用 Harbor 评估框架在沙盒化的 Docker 环境中运行智能体并自动验证其输出。文档类型包括施工图纸、平面图、进度表、规格说明书和提交材料。

任务分类与规模

任务按三个范围级别组织，共包含 9 种任务类型，总计 196 个任务实例。

范围级别与任务构成

📄 单页内范围
- 任务数量：43 个实例
- 任务类型：
  - Detail Technical Review (14个)：回答关于细节的局部技术问题。
  - Detail Title Accuracy (15个)：验证细节标题是否与绘制内容匹配。
  - Note Callout Accuracy (14个)：根据引用的元素检查标注文本。
📑 单图纸集内范围
- 任务数量：89 个实例
- 任务类型：
  - Cross-Ref Resolution (51个)：识别无法解析到有效目标的交叉引用。
  - Cross-Ref Tracing (24个)：查找引用给定目标细节的所有源位置。
  - Sheet Index Consistency (14个)：比较图纸索引条目与标题栏的不匹配之处。
🗂 单项目内范围
- 任务数量：64 个实例
- 任务类型：
  - Drawing Navigation (12个)：根据查询定位正确的文件、图纸和细节。
  - Spec-Drawing Sync (16个)：识别规格说明书和图纸之间的冲突。
  - Submittal Review (36个)：评估提交材料是否符合规格说明书和图纸要求。

数据访问与结构

存储结构：所有 196 个任务实例位于 tasks/<scope>/<type>/<instance>/ 目录下。
大文件处理：大型文档未直接存储在代码仓库中。每个任务实例提供一个资源清单文件 (environment/manifest.jsonl)，用于在运行任务前预取所需文件。
清单文件：manifest.jsonl 包含 key (文件的 HTTPS URL) 和 dest (文件在本地 environment/ 目录下的相对路径) 字段。文件托管在 nomic-public-data.com。

使用前提与安装

运行环境：
- Python 3.12 或 3.13
- Docker（运行守护进程）
- uv（推荐的 Python 包和工具管理器）
安装步骤：
1. 安装 Harbor 评估框架 CLI：uv tool install harbor
2. 克隆仓库并安装项目依赖：git clone <repo-url> && cd aec-bench 然后 uv sync

支持的智能体

数据集支持通过 Harbor 框架在任务容器内运行的智能体，以及直接调用 Nomic Agent HTTP API 的智能体。

Harbor 智能体

Claude Agent
- 导入路径：aec_bench.agents.claude_agent:ClaudeAgent
- 功能：在容器内安装并运行 Claude Code CLI。
- 要求：需要在 .env 文件中设置 ANTHROPIC_API_KEY。
- 模型示例：anthropic/claude-opus-4-6, anthropic/claude-sonnet-4-6。
Codex Agent
- 导入路径：aec_bench.agents.codex_agent:CodexAgent
- 功能：在容器内安装并运行 OpenAI Codex CLI。
- 要求：需要在 .env 文件中设置 OPENAI_API_KEY。
- 模型示例：openai/gpt-5.4, openai/gpt-5.2。

Nomic Agent (API)

模块：aec_bench.agents.nomic_agent
功能：直接驱动 Nomic Agent HTTP API（无需 Harbor 和任务容器），用于上传文件、运行提示并获取结果。
凭证要求：需要从 Nomic 获取并设置 NOMIC_AGENT_API_BASE 和 NOMIC_AGENT_API_KEY。

运行方式

运行单次试验

使用 harbor trials start 命令在单个任务实例上运行智能体。 bash harbor trials start -p <path-to-task> --agent-import-path module:Class -m <model>

运行批量任务

使用 harbor jobs start 命令在多个任务上并行运行智能体。 bash harbor jobs start -p <path-to-tasks> --agent-import-path module:Class -m <model>

支持通过 -n 设置并发数，通过 -t 使用通配符过滤任务实例。

引用格式

bibtex @misc{mankodiya2026aecbenchmultimodalbenchmarkagentic, title={AEC-Bench: A Multimodal Benchmark for Agentic Systems in Architecture, Engineering, and Construction}, author={Harsh Mankodiya and Chase Gallik and Theodoros Galanos and Andriy Mulyar}, year={2026}, eprint={2603.29199}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2603.29199}, }

搜集汇总

数据集介绍

构建方式

在建筑、工程与施工领域，人工智能代理的评估需要基于真实文档进行多模态理解。AEC-Bench数据集通过精心设计的任务框架，构建了涵盖196个任务实例的评估基准。其构建过程依托Harbor评估框架，在沙盒化的Docker环境中运行智能代理，并自动验证输出结果。数据集以实际工程文档为基础，包括施工图纸、平面图、进度表、技术规格书和提交材料等，通过三层任务范围——单图纸推理、图纸集内跨页推理以及项目级跨文档推理——系统性地组织任务实例，确保评估覆盖从局部细节到全局协调的多种认知需求。

特点

AEC-Bench数据集的核心特点体现在其多层次、多模态的任务设计上。数据集包含九个任务类型，分布于三个不同范围层级，全面覆盖建筑、工程与施工领域的典型工作场景。任务实例涉及细节技术审查、交叉引用解析、图纸导航、规范与图纸同步以及材料提交审查等实际工程问题，强调对多源异构文档的协同理解与推理。数据集采用模块化结构，每个任务实例均配备独立的环境清单与资源文件，支持灵活的任务配置与扩展。此外，数据集与Harbor框架深度集成，提供标准化的代理接口与自动化评估流程，为智能代理在专业领域的性能评测提供了可靠且可复现的实验平台。

使用方法

使用AEC-Bench数据集进行评估研究时，需首先配置Python、Docker及Harbor框架等基础环境。数据集通过清单文件管理大型工程文档的获取，用户需根据manifest.jsonl中的URL预取所需文件至本地环境目录。评估过程支持单任务试验与批量任务作业两种模式：通过harbor trials start命令可在独立容器中运行指定代理模型处理单一任务实例；而harbor jobs start命令则支持并发执行多个任务，并可利用通配符筛选特定任务子集。数据集提供Claude代理与Codex代理两种集成方案，用户可通过设置API密钥启用相应模型，亦可通过Nomic Agent HTTP API直接与外部服务交互。所有任务输出均被自动捕获并结构化保存，便于后续分析与比较。

背景与挑战

背景概述

随着人工智能在专业工程领域的渗透，建筑、工程与施工（AEC）行业亟需能够理解复杂多模态文档的智能体系统。AEC-Bench由Nomic AI的研究团队于2026年提出，旨在填补该领域系统性评估基准的空白。该数据集聚焦于真实世界的AEC文档，如施工图纸、平面图、规格书和提交材料，通过196个任务实例覆盖九个任务类型，划分为图纸内、图纸间和项目内三个推理层级。其核心研究问题在于评估AI智能体对专业工程文档进行多模态理解、跨文档关联与合规性核查的能力，为AEC领域的智能化转型提供了关键的评估工具与研究基础。

当前挑战

AEC-Bench所针对的领域挑战在于AEC文档固有的复杂性与专业性，这些文档通常包含高密度的技术符号、跨页引用以及多模态信息交织，要求智能体具备深度的领域知识理解与精确的空间推理能力。构建过程中的挑战则体现在数据集的规模化与真实性保障上，需要从真实的工程项目中收集、清理并标注大量敏感且异构的文档，同时确保任务设计既能反映实际工作流程，又能支持自动化评估。此外，在沙箱环境中部署智能体并实现输出结果的自动验证，也带来了工程实现与评估标准化的双重技术难题。

常用场景

经典使用场景

在建筑、工程与施工（AEC）领域，AEC-Bench数据集为评估多模态智能体系统提供了标准化测试平台。其经典使用场景聚焦于对真实世界AEC文档（如施工图纸、平面图、规范说明书和提交材料）进行自动化分析与验证。研究者通常利用该数据集，在受控的Docker沙箱环境中部署智能体，执行跨图纸的交叉引用解析、技术细节审查以及规范与图纸一致性检查等任务，从而系统评估智能体在复杂工程文档中的理解与推理能力。

衍生相关工作

围绕AEC-Bench数据集，已衍生出一系列专注于工程文档智能处理的经典研究工作。这些工作主要集中于开发基于Harbor框架的专用智能体，如Claude Agent与Codex Agent，它们被设计用于执行数据集中的特定任务家族。此外，研究社区进一步探索了将大型语言模型与计算机视觉技术相结合的多模态架构，以提升对图纸视觉元素与文本标注的联合理解能力，推动了领域自适应预训练与少样本学习技术在AEC人工智能中的创新应用。

数据集最近研究