AEC-Bench
收藏AEC-Bench 数据集概述
数据集基本信息
- 数据集名称:AEC-Bench: A Multimodal Benchmark for Agentic Systems in Architecture, Engineering, and Construction
- 发布机构:Nomic AI
- 相关论文:arXiv:2603.29199
- 数据集地址:https://huggingface.co/datasets/nomic-ai/aec-bench
- 许可证:Apache License, Version 2.0
数据集简介
AEC-Bench 是一个用于评估在真实世界建筑、工程和施工(AEC)文档上操作的AI智能体的多模态基准测试。它使用 Harbor 评估框架在沙盒化的 Docker 环境中运行智能体并自动验证其输出。文档类型包括施工图纸、平面图、进度表、规格说明书和提交材料。
任务分类与规模
任务按三个范围级别组织,共包含 9 种任务类型,总计 196 个任务实例。
范围级别与任务构成
-
📄 单页内范围
- 任务数量:43 个实例
- 任务类型:
- Detail Technical Review (14个):回答关于细节的局部技术问题。
- Detail Title Accuracy (15个):验证细节标题是否与绘制内容匹配。
- Note Callout Accuracy (14个):根据引用的元素检查标注文本。
-
📑 单图纸集内范围
- 任务数量:89 个实例
- 任务类型:
- Cross-Ref Resolution (51个):识别无法解析到有效目标的交叉引用。
- Cross-Ref Tracing (24个):查找引用给定目标细节的所有源位置。
- Sheet Index Consistency (14个):比较图纸索引条目与标题栏的不匹配之处。
-
🗂 单项目内范围
- 任务数量:64 个实例
- 任务类型:
- Drawing Navigation (12个):根据查询定位正确的文件、图纸和细节。
- Spec-Drawing Sync (16个):识别规格说明书和图纸之间的冲突。
- Submittal Review (36个):评估提交材料是否符合规格说明书和图纸要求。
数据访问与结构
- 存储结构:所有 196 个任务实例位于
tasks/<scope>/<type>/<instance>/目录下。 - 大文件处理:大型文档未直接存储在代码仓库中。每个任务实例提供一个资源清单文件 (
environment/manifest.jsonl),用于在运行任务前预取所需文件。 - 清单文件:
manifest.jsonl包含key(文件的 HTTPS URL) 和dest(文件在本地environment/目录下的相对路径) 字段。文件托管在nomic-public-data.com。
使用前提与安装
- 运行环境:
- Python 3.12 或 3.13
- Docker(运行守护进程)
- uv(推荐的 Python 包和工具管理器)
- 安装步骤:
- 安装 Harbor 评估框架 CLI:
uv tool install harbor - 克隆仓库并安装项目依赖:
git clone <repo-url> && cd aec-bench然后uv sync
- 安装 Harbor 评估框架 CLI:
支持的智能体
数据集支持通过 Harbor 框架在任务容器内运行的智能体,以及直接调用 Nomic Agent HTTP API 的智能体。
Harbor 智能体
-
Claude Agent
- 导入路径:
aec_bench.agents.claude_agent:ClaudeAgent - 功能:在容器内安装并运行 Claude Code CLI。
- 要求:需要在
.env文件中设置ANTHROPIC_API_KEY。 - 模型示例:
anthropic/claude-opus-4-6,anthropic/claude-sonnet-4-6。
- 导入路径:
-
Codex Agent
- 导入路径:
aec_bench.agents.codex_agent:CodexAgent - 功能:在容器内安装并运行 OpenAI Codex CLI。
- 要求:需要在
.env文件中设置OPENAI_API_KEY。 - 模型示例:
openai/gpt-5.4,openai/gpt-5.2。
- 导入路径:
Nomic Agent (API)
- 模块:
aec_bench.agents.nomic_agent - 功能:直接驱动 Nomic Agent HTTP API(无需 Harbor 和任务容器),用于上传文件、运行提示并获取结果。
- 凭证要求:需要从 Nomic 获取并设置
NOMIC_AGENT_API_BASE和NOMIC_AGENT_API_KEY。
运行方式
运行单次试验
使用 harbor trials start 命令在单个任务实例上运行智能体。
bash
harbor trials start -p <path-to-task> --agent-import-path module:Class -m <model>
运行批量任务
使用 harbor jobs start 命令在多个任务上并行运行智能体。
bash
harbor jobs start -p <path-to-tasks> --agent-import-path module:Class -m <model>
支持通过 -n 设置并发数,通过 -t 使用通配符过滤任务实例。
引用格式
bibtex @misc{mankodiya2026aecbenchmultimodalbenchmarkagentic, title={AEC-Bench: A Multimodal Benchmark for Agentic Systems in Architecture, Engineering, and Construction}, author={Harsh Mankodiya and Chase Gallik and Theodoros Galanos and Andriy Mulyar}, year={2026}, eprint={2603.29199}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2603.29199}, }




