Mining-Engineering-Eval
收藏Hugging Face2025-07-23 更新2025-07-24 收录
下载链接:
https://huggingface.co/datasets/acnul/Mining-Engineering-Eval
下载链接
链接失效反馈官方服务:
资源简介:
矿建工程领域中文指令与评估数据集,专为提升大型语言模型在中国矿建工程领域专业知识与实践能力而设计。数据集包含六大模块:法律法规、工程规范、专业术语、安全事故案例、行业实践经验和领域综合知识。数据集由合肥工业大学大一学生完成,支持模型微调、评估和验证。
创建时间:
2025-07-21
原始信息汇总
矿建工程领域中文指令与评估数据集
数据集概述
- 项目来源:合肥工业大学大一学生的大学生创新创业训练计划(大创)项目成果。
- 目标:提升大型语言模型在中国矿建工程领域的专业知识与实践能力。
- 内容覆盖:
- 法律法规 (law)
- 工程规范 (specifications)
- 专业术语 (concept)
- 安全事故案例 (safety)
- 行业实践经验 (forum)
- 领域综合知识 (synthesis)
数据集结构
- 评估集 (Evaluation Dataset):包含301条数据,用于全面评估模型在各个模块上的综合表现。
- 探针集 (Probe Dataset):从评估集中精选的50条代表性样本,用于快速、低成本的性能验证。
评估集结构
- 拆分 (Splits):
concept:15条示例forum:60条示例law:30条示例safety:20条示例specifications:56条示例synthesis:120条示例
- 特征 (Features):
prompt:评估问题response:评估的黄金标准答案question_type:问题的类型分类source:数据的知识来源类别task_id:每个问题的唯一标识符
构建方法
- 法律法规:基于公开发布的核心法律文本,生成高质量问答对。
- 工程规范:从权威的工程标准与规范中提取关键技术要求和量化指标。
- 安全事故案例:对公开的事故调查报告进行深度分析,设计多层次提问范式。
- 行业实践与综合知识:结合一线从业者的实践经验和领域内的长尾知识点。
如何使用
- 加载评估集: python from datasets import load_dataset eval_dataset = load_dataset("acnul/Mining-Engineering-Eval")
引用
bibtex @misc{hfut_mining_engineering_datasets_2025, author = {Hefei University of Technology Undergraduate Innovation Program}, title = {A Chinese Instruction and Evaluation Dataset Collection for the Mining Engineering Domain}, year = {2025}, publisher = {Hugging Face}, journal = {Hugging Face Hub}, howpublished = {url{https://huggingface.co/datasets/acnul/Mining-Engineering-SFT}} }
搜集汇总
数据集介绍

构建方式
在矿建工程领域知识体系构建中,该数据集采用了多维度的数据工程技术。法律法规模块基于权威文本通过对抗性样本增强技术生成问答对,工程规范模块系统化提取技术指标并转化为结构化问答。安全事故案例采用递进式提问范式设计,从具体案例抽象到原理分析。行业实践与综合知识模块则融合专家经验与自动化生成技术,构建了覆盖领域长尾知识的数据体系。
特点
该数据集以模块化架构展现显著特色,包含法律法规、工程规范等六大专业维度。每个模块采用差异化设计理念,如安全事故案例采用多层次提问范式,工程规范强调技术指标量化。数据集通过思维链增强技术提升模型推理能力,并配备专属评估体系实现细粒度性能验证。数据来源标注清晰,任务标识系统完善,支持领域知识的系统性学习与评估。
使用方法
该数据集通过Hugging Face生态实现便捷调用,支持模块化加载与整体使用两种模式。训练集采用单一拆分结构,包含prompt-response-source三元组;评估集则按知识模块划分,保留完整评估字段。用户可通过标准接口加载特定模块,或通过pandas进行统计分析。数据加载后可直接用于模型微调,各模块独立拆分设计便于开展针对性能力评估。
背景与挑战
背景概述
Mining-Engineering-Eval数据集由合肥工业大学本科生团队在大学生创新创业训练计划中构建,旨在提升大型语言模型在中国矿建工程领域的专业能力。该数据集涵盖了法律法规、工程规范、专业术语、安全事故案例、行业实践经验及领域综合知识六大模块,通过高质量的问答对和思维链增强技术,为模型提供了全面的知识覆盖和深度推理能力。其构建不仅填补了矿建工程领域中文指令数据集的空白,也为相关研究和应用提供了重要资源。
当前挑战
该数据集在构建过程中面临多重挑战。领域问题的挑战主要在于矿建工程知识的专业性和复杂性,涉及大量技术术语和法律规范,要求模型具备精准理解和推理能力。数据构建的挑战包括如何从权威来源提取并转化结构化知识,确保问答对的准确性和多样性;同时,安全事故案例的多层次提问设计需要兼顾深度与广度。此外,行业实践和综合知识的长尾覆盖也增加了数据收集和标注的难度。
常用场景
经典使用场景
在矿建工程领域,大型语言模型的专业化微调成为提升行业智能化水平的关键路径。Mining-Engineering-Eval数据集通过精心设计的六大知识模块,为研究人员提供了标准化的评估基准。特别是在模型调优阶段,其分模块设计的评估体系能精确检测模型在法律法规解析、安全事故归因等细分场景的表现差异,这种结构化评估方式显著提升了领域适应性测试的科学性。
解决学术问题
该数据集有效解决了矿建工程领域自然语言处理中的三大核心问题:专业术语理解偏差、技术规范解析不准确以及安全事故案例分析表面化。通过融合法律法规文本与工程实践数据,构建了从基础概念到复杂案例的多层次知识体系,为领域知识蒸馏提供了量化评估标准,填补了中文矿建工程领域缺乏专业评估基准的学术空白。
衍生相关工作
该数据集已催生多个创新性研究,包括基于思维链增强的矿建知识图谱构建、多模态矿山安全预警系统等。合肥工业大学团队进一步开发的CoT-Enhanced版本,通过两阶段知识蒸馏策略提升了模型的逻辑推理深度,相关方法论已被拓展应用于隧道工程、地质勘探等相邻领域的数据集构建。
以上内容由遇见数据集搜集并总结生成



