大模型工程领域能力测评数据
收藏浙江省数据知识产权登记平台2025-08-20 更新2025-09-06 收录
下载链接:
https://www.zjip.org.cn/home/announce/trends/167789
下载链接
链接失效反馈官方服务:
资源简介:
大模型工程领域能力测试数据集被打造为高质量、高标准化的测评工具。该数据集涵盖丰富的工程领域专业知识,包括交通、水电、造价、城建以及总承包领域,为全面评估大语言模型的工程能力提供了丰富的测试素材;在研发阶段,可精准定位模型在专业及业务问题解答上的短板,为算法优化与训练数据完善提供方向;上线前,通过严格测试评估,确保模型契合实际业务需求,有效降低运行风险;投入使用后,可定期监测性能,保障模型始终稳定运行。同时,通过对测评集数据的深入分析,可填补工程业务知识空白,夯实模型知识基础,进而对大模型在工程行业理解、快速提炼工程施工要点以及推理引用行业规范等能力上进行精准测试,能够满足工程领域多种应用场景的需求。(1) 数据来源:数据来源是基于企业内部现有的书籍、工程施工资料、项目资料、图档资料以及各类论文以及规范,结合施工领域的专家经验以及在工程领域经常遇到的各类专业问题,构建工程领域的核心问题,然后从各类专业书籍中构造问题的标准答案,最后人工基于专家经验对问题及答案进行准确性校验以及核证,生成测试数据。(2) 数据标准化处理:依据统一规范模板(序号、问题、回答、问题类型、检索类型、业务类型),对测评集数据进行系统化梳理,确保数据格式统一、清晰。(3) 数据分类与分层:从业务属性出发,将测评集整体划分为工程业务和院内业务两大类别;并基于业务类型进行多维度深度分层,构建层次分明的数据体系。(4) 关键信息标注:对测评集数据中的每道题目,详细标注问题来源、业务大类、问题类型、检索类型及业务类型等关键信息。(5) 问题改编与生成:以原始问题集合为基础,综合考量问题的专业性、实际问答场景、出现频率等因素进行筛选;对测评集的问题表述和答案内容进行优化与完善,针对部分疑难问题,咨询专业人员提供权威解答。(6) 测试指标设计:构建涵盖问题回答准确率、引用原文精准率等核心指标的测试方案,全方位、多角度评估模型能力。(7) 模型评估与验证:运用测评集对大模型进行全面、系统的综合性评估,深入分析模型在专业问题和业务问题解答过程中的适用范围,精准定位存在的缺陷与不足。
提供机构:
浙江华东工程数字技术有限公司
创建时间:
2025-07-08
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



