Norma-MESBench 1.0

github2026-01-18 更新2026-01-19 收录

下载链接：

https://github.com/2719104587/MESBench

下载链接

链接失效反馈

官方服务：

资源简介：

Norma-MESBench 1.0 是中国建筑监理行业首个万级别多任务LLM评估基准，专注于房屋建筑领域，包含10,144个问题，涵盖专业技术、通用综合和特殊场景，包括单选题、多选题、判断题和问答题形式。通过采用“多级混合评分机制”，全面衡量LLMs的专业能力。

Norma-MESBench 1.0 is the first ten-thousand-scale multi-task LLM evaluation benchmark in China's construction supervision industry, focusing on the field of building construction. It contains 10,144 questions covering professional expertise, general comprehensive scenarios, and special scenarios, with question types including single-choice questions, multiple-choice questions, true-false questions, and open-ended questions. By adopting a "multi-level hybrid scoring mechanism", it comprehensively evaluates the professional capabilities of large language models (LLMs).

创建时间：

2025-12-29

原始信息汇总

Norma-MESBench 1.0 数据集概述

数据集基本信息

数据集名称：Norma-MESBench 1.0
核心定位：首个面向中国建设工程监理行业的万级别多任务大语言模型评估基准。
行业领域：聚焦于房屋建筑工程监理。
数据规模：总计包含10,144道题目。
发布方：SRIBS Consulting Group（上海建科咨询集团）。

数据集构成

题目类型与数量分布

单选题：4,669道
多选题：3,709道
判断题：1,271道
问答题：495道

评估维度结构

数据集包含三大评估板块，采用多层次结构：

专业技术板块（权重0.45）
- 构成：安全管理、质量控制。
- 细分：安全管理下设“安全专项”和“安全类型”；质量控制下设“分项工程”、“子分部工程”和“分部工程”。
通用综合板块（权重0.35）
- 构成：基础理论、合同管理、投资控制、进度控制。
专项场景板块（权重0.20）
- 构成：医疗建筑、机场交通建筑。

数据集构建方法

构建模式：采用“人工出题 + 大模型辅助出题”的混合模式。
人工出题：由资深监理专业人士编写，提供“场景问题”、“正确答案”、“参考依据”及“具体选项”/“得分点”。
大模型辅助出题：
- 基于RAG的生成：利用OCR和Embedding技术将标准、管理手册等技术文档转为向量数据库，通过检索增强生成（RAG）基于准确参考依据生成题目，并人工校验。
- 场景改写：对国家注册监理工程师考试科目题目，采用打乱选项、场景改写等方法，减少“记忆性”考察，测试实际解题能力。
质量控制：包括格式统一、去重（基于语义匹配和向量相似度计算）、分布检查和质量检验。

评估与评分机制

评估模式：采用零样本（Zero-shot）和生成式评估，不提供解题模板，仅约束输出格式。
总体评分逻辑：采用“多层次多类型混合评分机制”。总分为三大板块的加权和。
各题型评分机制：
- 客观题（单选、多选、判断）：通过与标准答案比对计算准确率。
- 主观题（问答）：采用“拆分得分点 + LLM评委组”机制。由评委组（kimi-k2-thinking, deepseek-r1, qwen3-235b-a22b-thinking-2507）基于得分点独立评分后取平均。

模型评估结果分析摘要

评估模型：共选取14个主流大语言模型进行评估（包含开启/未开启深度思考的模型），参数量从20B到超过100B，涵盖开源与闭源模型。
大参数模型榜（参数量超100B）：竞争激烈，Kimi-k2（深度思考）以73.52分微弱优势领先，DeepSeek-v3.2（深度思考）和Qwen3-Max（非深度思考）紧随其后。GPT-OSS-120B作为国外模型表现有较大差距。
中小参数模型榜（20B-32B开源模型）：Qwen3-32B（深度思考）以65.63分领先，性价比高。nvidia-nemotron-3-30b-a3b和gpt-oss-20b在中文监理领域表现不佳。
深度思考模式影响：所有模型开启“深度思考（CoT）”后得分均有显著提升，其中DeepSeek-v3.2提升最大（+7.5分）。
国内外模型对比：在参数量相近的情况下，国内模型（如Qwen3-32B）在所有维度上均优于国外模型（Nemotron-30B, GPT-OSS-20B），国外模型在“专业技术”板块表现失败。

数据集使用

许可证：本项目采用 CC BY-NC 4.0 许可证，仅限非商业研究使用。
目录结构：主要包含assets/（资源）、data/（评估数据集）、frame/（知识框架定义）、config/（配置文件）、pipeline/（核心处理逻辑）。
安装与运行：通过pip install -r requirements.txt安装依赖，运行python main.py启动评估，支持通过配置文件定制评估范围与参数。
评估流程：包括初始化、数据加载、模型推理、评分（客观题自动评分，主观题由评委模型评分）和报告生成。

搜集汇总

数据集介绍

构建方式

在工程监理领域，专业知识的准确评估对保障建筑质量与安全至关重要。Norma-MESBench 1.0的构建采用了“人工命题与大型语言模型辅助命题”相结合的混合模式。资深监理专家负责撰写具有实际场景的题目，确保问题贴合行业实践；同时，借助检索增强生成技术，将标准规范与管理手册等文档转化为向量数据库，以此为基础生成题目并经过人工校验。此外，针对现有考试题目进行选项重排与场景改写，有效降低了模型对记忆性知识的依赖，从而更真实地检验其问题解决能力。通过格式统一、去重处理与分布检查等质量控制步骤，最终形成了包含10,144道题目的多样化评估集合。

使用方法

使用该数据集进行评估时，需预先配置Python环境并安装依赖包。用户可通过运行主脚本并指定配置文件来启动评估流程，系统将自动加载题目、调用候选模型生成答案，并依据预设机制进行评分。对于客观题型，系统直接比对标准答案计算准确率；主观问答题则采用“评分点拆分与评委模型组”机制，由多个评委模型独立打分后取平均值。评估结束后，系统会生成详细的分数表格与分析报告，帮助用户直观了解模型在各维度的表现。数据集支持验证功能，确保评估前题目集的完整性与有效性。

背景与挑战

背景概述

随着大型语言模型在垂直专业领域的应用需求日益增长，工程监理行业因其知识体系复杂、实践性强而长期缺乏针对性的评估基准。在此背景下，SRIBS咨询集团于近期发布了Norma-MESBench 1.0数据集，这是首个面向中国建设工程监理行业的万级规模多任务大语言模型评估基准。该数据集聚焦房屋建筑工程领域，涵盖了专业技术、通用综合与特殊场景三大板块，共包含10,144道试题，题型囊括单选、多选、判断与问答。其核心研究目标在于系统性地衡量大语言模型在监理专业知识上的掌握程度与输出可靠性，旨在填补该垂直领域缺乏标准化评估工具的空白，为模型的专业能力提供量化依据，并推动行业智能化应用的稳健发展。

当前挑战

该数据集致力于解决大语言模型在高度专业化且强监管的建设工程监理领域中的能力评估难题。首要挑战在于如何精准构建一个既覆盖广泛知识面又具备足够专业深度的评估体系，以真实反映模型处理复杂工程规范、安全质量控制等实际问题的能力。在构建过程中，团队面临多重挑战：一是高质量专业试题的规模化生成，需融合资深监理专家的人工编写与大语言模型的辅助生成，并确保技术文档检索增强生成的准确性与人工校验的严谨性；二是试题的质量控制，包括基于语义匹配与向量相似度的去重、各评估单元试题数量的均衡分布，以及针对主流模型常见错误进行缺陷试题替换；三是设计科学的多层级混合评分机制，特别是针对主观问答题，需构建基于评分要点的大语言模型评审组机制以实现可靠评分，这都对数据集的信度与效度提出了极高要求。

常用场景

经典使用场景

在建筑工程监理这一高度专业化的垂直领域，Norma-MESBench 1.0数据集最经典的使用场景是作为评估大语言模型专业能力的基准测试平台。该数据集通过涵盖专业技术、通用综合与特殊场景三大板块，并细分为安全、质量、合同管理等多个维度，构建了一个多任务、多层次的评估框架。研究人员与工程师利用其超过一万道精心构建的题目，能够系统性地检验模型在土方开挖降水控制、医疗建筑监理等具体场景下的知识储备与问题解决能力，从而为模型在专业领域的适用性提供量化依据。

解决学术问题

该数据集有效解决了建筑工程监理领域长期缺乏标准化、大规模评估基准的学术研究问题。它通过引入“多级混合评分机制”与结合检索增强生成技术构建的题目，不仅填补了该垂直领域大模型评估的空白，更推动了针对模型专业领域知识理解、复杂场景推理以及中文语境下工程规范应用等核心能力的量化研究。其意义在于为学术界提供了一个可复现、可比较的评估标准，促进了领域专用大模型评估方法论的发展，并揭示了思维链等技术在提升模型专业表现上的关键作用。

实际应用

在实际应用层面，Norma-MESBench 1.0为工程咨询企业、软件开发方及监理从业人员提供了关键的工具。企业可利用该基准筛选和验证适用于监理文档审核、现场问题智能问答或培训考核的AI模型，确保其输出的准确性与可靠性。例如，通过评估模型在“安全专项”或“质量控制”分项上的得分，能够精准匹配特定业务场景的需求。这直接助力于推动人工智能技术在提升工程管理效率、降低人为错误风险方面的落地，加速建筑业数字化转型。

数据集最近研究