five

EngiBench

收藏
arXiv2025-09-22 更新2025-09-24 收录
下载链接:
https://github.com/zhxie1998/EngiBench
下载链接
链接失效反馈
官方服务:
资源简介:
EngiBench是一个用于评估大型语言模型在工程问题解决能力上的分层基准测试。它跨越三个难度级别,包括基础知识检索、多步情境推理和开放式建模,涵盖了广泛的工程子领域。为了促进对模型性能的深入理解,我们系统地重写了每个问题,使其具有三个受控变体(扰动、知识增强和数学抽象),使我们能够分别评估模型的鲁棒性、特定领域的知识和数学推理能力。实验结果表明,不同难度级别的模型性能存在明显的差距:随着任务的难度增加,模型的表现越来越差,当问题稍有变化时,模型的表现也更差,在高级工程任务上远落后于人类专家。这些发现揭示了当前LLMs在解决现实世界工程问题所需的高级推理能力方面的不足,突出了未来模型需要具有更深层次、更可靠的问题解决能力的必要性。

EngiBench is a hierarchical benchmark designed for evaluating the engineering problem-solving capabilities of large language models (LLMs). It spans three difficulty levels, covering basic knowledge retrieval, multi-step contextual reasoning, and open-ended modeling, and encompasses a wide range of engineering subfields. To facilitate a deeper understanding of model performance, we systematically rewrote each problem to include three controlled variants: perturbation, knowledge enhancement, and mathematical abstraction, enabling us to separately evaluate the model’s robustness, domain-specific knowledge, and mathematical reasoning abilities. Experimental results reveal a significant gap in model performance across different difficulty levels: as task difficulty increases, model performance deteriorates progressively; even minor modifications to the problem lead to worse performance, and current models lag far behind human experts on advanced engineering tasks. These findings expose the shortcomings of current LLMs in terms of the advanced reasoning capabilities required to solve real-world engineering problems, highlighting the necessity for future models to possess deeper, more reliable problem-solving capabilities.
提供机构:
香港理工大学
创建时间:
2025-09-22
搜集汇总
数据集介绍
main_image_url
构建方式
EngiBench采用分层数据构建策略,涵盖工程问题解决的三个难度级别。基础级别(Level 1)和上下文推理级别(Level 2)从公开基准和大学教育资源中筛选结构化问题,通过标准化和验证确保数据质量。开放建模级别(Level 3)则从建模竞赛中精选开放性问题,每个问题均配备官方评分标准和专家参考解决方案。所有问题均经过语义和数值扰动处理,以减少与预训练数据的重叠,并通过博士级专家审核确保工程语义的准确性和评估一致性。
特点
EngiBench的核心特点在于其层次化任务设计,模拟从基础知识检索到开放建模的工程认知进阶。该数据集覆盖系统与控制、物理与结构、化学与生物三大工程子领域,每个问题均提供原始版本及扰动、知识增强和数学抽象三种变体,支持对模型鲁棒性、领域知识和数学推理能力的细粒度分析。其开放建模任务采用基于准则的评估框架,重点关注信息提取、领域推理、多目标决策和不确定性处理四大核心能力,有效区分模型在真实工程场景中的表现差异。
使用方法
使用EngiBench时,对于Level 1和Level 2的封闭式问题,可采用二元评分法直接比对模型输出与参考答案的准确性。Level 3的开放建模任务需依据专家设计的评分准则进行多维度评估,涵盖信息提取完整性、领域知识应用深度、多目标权衡合理性及不确定性处理能力。评估过程建议结合自动化脚本与人工审核,确保结果可复现性。通过对比模型在不同问题变体上的表现,可系统诊断其知识缺口、推理稳定性及上下文依赖弱点,为工程推理能力的优化提供实证依据。
背景与挑战
背景概述
EngiBench作为首个系统性评估大语言模型在工程问题解决能力的基准测试,由南洋理工大学、悉尼大学、香港中文大学(深圳)等多所高校研究团队于2025年联合创建。该数据集聚焦于填补现有数学推理基准与真实工程场景间的认知鸿沟,通过构建包含基础知识检索、多步上下文推理和开放式建模的三级难度体系,覆盖系统控制、物理结构、化学生物等多元工程子领域。其创新性体现在通过问题重构技术生成扰动版、知识增强版和数学抽象版三种变体,实现了对模型鲁棒性、领域知识掌握度和数学推理能力的细粒度诊断,为人工智能在复杂工程决策中的应用提供了重要评估框架。
当前挑战
在领域问题层面,EngiBench直面工程问题与数学问题的本质差异:工程问题常具备信息不完整、多目标冲突和现实约束等特性,要求模型具备从冗余信息中提取关键参数、平衡竞争性目标、处理不确定性等高层推理能力。构建过程中面临三大挑战:一是开放式工程问题的标准化评估难题,需设计基于专家评分规则的量化体系;二是数据污染风险控制,通过语义扰动和数值替换降低与预训练数据的重叠度;三是多学科知识整合的复杂性,需确保不同工程子领域问题的专业准确性和评估一致性。
常用场景
经典使用场景
在工程智能评估领域,EngiBench作为首个系统化评估大语言模型解决工程问题能力的基准测试工具,其经典应用场景主要体现在分层能力诊断框架中。该数据集通过三个难度层级(基础知识检索、多步情境推理和开放式建模)构建了渐进式评估体系,研究人员可精准定位模型在工程问题解决链条中的薄弱环节。例如在Level 2的多步推理任务中,模型需要处理包含单位转换和物理约束的复杂场景,如计算无人机在倾斜航段与平飞航段混合路径下的电池续航能力,这种设计有效模拟了真实工程决策中的连续性推理需求。
衍生相关工作
该数据集的发布催生了工程AI评估范式的系列创新工作。其分层设计理念被扩展至交通工程领域的TransportBench,通过引入时空约束建模深化了多目标决策评估维度。在方法论层面,EngiBench首创的扰动检测机制启发了Math-Perturb等基准的鲁棒性测试框架,而基于量规的开放式任务评估方案则为Prometheus等评估系统提供了结构化评分参考。后续研究如EEE-Bench在电气工程细分领域沿用了知识增强变体的设计思路,通过注入电路定理等专业知识构建了更精细的领域能力诊断工具链。
数据集最近研究
最新研究方向
在工程问题求解领域,EngiBench作为首个系统评估大语言模型能力的基准,近期研究聚焦于多层级任务设计与细粒度能力诊断。该基准通过构建三个难度递增的层次(基础知识检索、多步上下文推理、开放式建模),揭示了当前模型在真实工程场景中的局限性。前沿探索集中在模型对输入扰动的敏感性分析、领域知识注入的有效性验证以及数学抽象能力的边界测试。实验表明,即使顶尖模型在开放式任务中仍显著落后于人类专家,尤其在不确定性处理和多目标决策等高阶推理维度存在明显短板。这些发现推动了面向工程可靠性的模型优化方向,强调需融合语义理解、约束推理与动态适应能力,为下一代工业级AI系统的开发提供关键评估依据。
相关研究论文
  • 1
    EngiBench: A Benchmark for Evaluating Large Language Models on Engineering Problem Solving香港理工大学 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作