DrafterBench

Name: DrafterBench
Creator: 麦吉尔大学土木工程系
Published: 2025-07-16 01:56:04
License: 暂无描述

arXiv2025-07-16 更新2025-08-15 收录

下载链接：

https://huggingface.co/datasets/Eason666/DrafterBench

下载链接

链接失效反馈

官方服务：

资源简介：

DrafterBench是一个开源的自动工具包，旨在评估大型语言模型（LLM）代理在土木工程绘图修订任务中的自动化能力。该数据集包含了从现实世界绘图文件中总结的12种任务类型，共有46个定制化功能和1920个任务。DrafterBench通过模拟实际场景，测试AI代理在解读复杂和长上下文指令、利用先验知识和适应动态指令质量方面的能力。数据集通过系统分析任务准确性和错误统计数据，为集成LLM在工程应用中提供了深入见解。

提供机构：

麦吉尔大学土木工程系

创建时间：

2025-07-16

搜集汇总

数据集介绍

构建方式

DrafterBench数据集的构建基于对100+真实世界工程图纸修订文件的深入分析，从中归纳出12类任务，涵盖文本、表格和矢量实体三类对象的增删改查及格式更新操作。研究团队采用六维度参数控制任务复杂度（结构化数据理解、函数执行难度、指令跟随复杂度等），通过人工验证确保任务可解性和数值分布均匀性，最终构建包含1920项任务的测试集。为精准评估模型表现，创新性地设计了46种定制化PDF编辑工具和双工具系统，前者执行实际图纸修改，后者记录操作路径以对比标准答案。

特点

该数据集的核心特点体现在四个方面：工业场景真实性（所有任务源自实际工程图纸修订需求）、评估维度全面性（从结构化数据理解到关键推理四个能力维度）、动态指令质量（包含完整/不完整、精确/模糊等不同质量的指令）以及自动化评估体系（通过双工具机制实现操作路径级别的精准评估）。特别设计的1920项任务覆盖12种操作类型，每种任务设置5个平行样本，确保评估结果的统计显著性。数据集还包含语言风格（结构化/非结构化）、对象数量（单/多对象）等控制变量，可系统分析模型在不同场景下的表现差异。

使用方法

使用DrafterBench需遵循标准化流程：首先加载包含系统预设提示词（任务背景、标准流程、可用工具和示例）的评估框架，将测试指令和预处理图纸输入待测模型。模型需调用提供的46种工具生成Python代码解决方案，通过双工具系统记录操作路径。评估分为两级：代码可执行性检查（30分）和目标完整性评估（70分），后者细分为参数定义、变量传递等6个子任务。用户可通过分析任务准确率、错误类型统计（如计划执行错误率）和综合得分（考虑模型最弱项）全面评估模型性能。数据集支持自定义提示词开发，鼓励研究者优化工业场景下的任务解决策略。

背景与挑战

背景概述

DrafterBench是由麦吉尔大学土木工程系的Yinsheng Li、NVIDIA的Zhen Dong以及麦吉尔大学的Yi Shao于2025年提出的一个开源基准测试工具包，专注于评估大型语言模型（LLM）在土木工程领域技术图纸修订任务中的自动化能力。该数据集包含从真实图纸文件中总结的12类任务，共计1920项任务，并配备了46个定制化函数工具。DrafterBench的提出填补了工业场景下系统性评估LLM代理的空白，尤其针对土木工程中单调、低技术含量但高劳动强度的图纸修订任务，旨在通过结构化数据理解、函数执行、指令遵循和关键推理四个维度的评估，为LLM在工程应用中的集成提供深入洞察。

当前挑战

DrafterBench面临的挑战主要体现在两个方面：领域问题挑战和构建过程挑战。在领域问题方面，工业任务要求LLM代理能够整合工具、先验知识和隐式策略，而不仅仅是简单调用函数，这对缺乏相关经验的LLM提出了挑战；此外，工业任务对高鲁棒性和细节准确性的要求极高，即使是一个简单的操作遗漏也可能导致任务失败。在构建过程中，挑战包括如何从多样化的真实图纸文件中提取和分类任务，如何设计能够准确评估模型性能的双重工具/函数，以及如何模拟动态指令质量以反映真实场景的复杂性。这些挑战使得DrafterBench的构建不仅需要深入的领域知识，还需要创新的评估方法设计。

常用场景

经典使用场景

DrafterBench数据集主要用于评估大型语言模型（LLM）在土木工程图纸修订任务中的自动化能力。该数据集包含1920个任务，涵盖文本、表格和矢量实体三类对象的添加、内容修改、映射和格式更新四种操作。通过模拟真实工程场景中的复杂指令和动态任务质量，DrafterBench能够系统地测试模型在结构化数据理解、函数执行、指令遵循和关键推理四个核心能力上的表现。

衍生相关工作

该数据集推动了多个研究方向的发展：1）基于其任务架构，后续研究提出了改进的ReAct-style代理模型，专门处理工程图纸的长序列单轮函数调用；2）在评估方法上启发了Operation-IoU等新型指标，用于量化模型操作路径与标准流程的吻合度；3）衍生出CivilGPT等垂直领域模型，通过DrafterBench的迁移学习显著提升了在工程文本理解方面的表现。数据集的多维度错误分析框架也被广泛应用于其他工业自动化任务的评估中。

数据集最近研究