Mining-Engineering-Probe

Hugging Face2025-07-23 更新2025-07-24 收录

下载链接：

https://huggingface.co/datasets/acnul/Mining-Engineering-Probe

下载链接

链接失效反馈

官方服务：

资源简介：

矿建工程领域中文指令与评估数据集，包括法律法规、工程规范、专业术语、安全事故案例、行业实践经验和领域综合知识六大模块，适用于提升大型语言模型在矿建工程领域的专业知识与实践能力。

创建时间：

2025-07-21

原始信息汇总

矿建工程领域中文指令与评估数据集（探针集）

数据集基本信息

许可证: MIT
语言: 中文 (zh)
标签: mining-engineering, instruction-tuning, SFT, chinese, llm
数据集大小: 209735 字节
下载大小: 195999 字节

数据集结构

特征

prompt: 评估问题 (string)
response: 评估的黄金标准答案 (string)
question_type: 问题的类型分类 (string)
source: 数据的知识来源类别 (string)
task_id: 每个问题的唯一标识符 (string)

数据拆分

拆分名称	字节数	样本数
concept	8268	3
forum	42620	10
law	6358	5
safety	44881	6
specifications	7579	10
synthesis	100029	16

数据集概述

来源: 合肥工业大学大一学生的大学生创新创业训练计划（大创）项目成果
目的: 提升大型语言模型在中国矿建工程领域的专业知识与实践能力
内容模块:
1. 法律法规 (law)
2. 工程规范 (specifications)
3. 专业术语 (concept)
4. 安全事故案例 (safety)
5. 行业实践经验 (forum)
6. 领域综合知识 (synthesis)

引用格式

bibtex @misc{hfut_mining_engineering_datasets_2025, author = {Hefei University of Technology Undergraduate Innovation Program}, title = {A Chinese Instruction and Evaluation Dataset Collection for the Mining Engineering Domain}, year = {2025}, publisher = {Hugging Face}, journal = {Hugging Face Hub}, howpublished = {url{https://huggingface.co/datasets/acnul/Mining-Engineering-SFT}} }

搜集汇总

数据集介绍

构建方式

在矿建工程领域专业知识的系统化整合过程中，该数据集采用了多源异构数据的融合策略。通过解析法律法规文本、工程规范文件、事故调查报告等权威资料，结合半自动化数据生成技术，构建了覆盖六大核心模块的结构化问答对。特别值得注意的是，在安全事故案例模块创新性地采用了多层次提问范式，从具体案例抽象到通用原理，形成递进式的知识体系。数据标注过程严格遵循领域专家指导原则，确保技术细节的准确性和专业术语的规范性。

特点

该数据集最显著的特征在于其模块化的知识体系设计，将矿建工程领域的复杂知识解构为法律法规、工程规范等六个相互关联又相对独立的子模块。每个模块采用差异化的数据表征方式，如法律条文强调条款的精确对应，安全事故案例则注重因果推理链的完整性。数据集特别设计了思维链增强版本，通过两阶段知识蒸馏策略注入逻辑推理路径，使得模型不仅能回答问题，更能展现专业领域的思维过程。数据分布上注重长尾知识的覆盖，确保模型具备解决实际工程问题的能力。

使用方法

该数据集的使用遵循模块化评估与整体微调相结合的原则。通过Hugging Face datasets库可便捷加载不同功能子集：训练集用于基础模型微调，建议优先采用含思维链的增强版本；评估集按六大模块划分，支持领域能力的细粒度诊断。典型使用流程包括：加载特定模块数据后，先进行分布统计分析以了解数据特征；针对安全规范等专业性强的内容，建议配合领域词典使用；模型验证阶段可利用探针集快速迭代。数据字段设计兼顾机器学习输入格式要求与工程实践需求，prompt-response对可直接用于监督训练，task_id则支持跨模块知识关联分析。

背景与挑战

背景概述

Mining-Engineering-Probe数据集由合肥工业大学本科生团队于2025年构建，作为大学生创新创业训练计划的重要成果。该数据集聚焦于中国矿建工程领域，旨在提升大型语言模型在该专业领域的知识掌握与实践能力。数据集涵盖法律法规、工程规范、专业术语、安全事故案例、行业实践经验及领域综合知识六大模块，通过精心设计的问答对形式，为模型微调与评估提供了专业化语料支持。其构建体现了跨学科协作的特点，将矿业工程专业知识与自然语言处理技术有机结合，为领域内智能问答系统的开发奠定了数据基础。

当前挑战

该数据集面临的挑战主要体现在两个方面：领域专业性方面，矿建工程涉及大量专业术语与技术规范，要求模型具备精准的领域知识理解与合规性判断能力，这对数据标注的准确性与覆盖广度提出了极高要求；数据构建方面，从非结构化的法律文本、事故报告等原始材料中提取有效信息并转化为标准问答对，需要复杂的数据工程处理流程，同时保持知识表达的严谨性与多样性存在显著难度。此外，如何平衡不同子领域样本的分布，确保模型在各专业模块上的均衡发展，也是构建过程中需要解决的关键问题。

常用场景

经典使用场景

在矿建工程领域，该数据集被广泛应用于大型语言模型的监督式微调（SFT）和评估。通过六大模块（法律法规、工程规范、专业术语、安全事故案例、行业实践经验和领域综合知识）的问答对，模型能够系统性地学习矿建工程的核心知识。特别是在思维链增强训练集（CoT-Enhanced SFT Dataset）中，两阶段知识蒸馏策略显著提升了模型的逻辑推理与深度分析能力，使其在复杂工程问题的解决中表现优异。

衍生相关工作

基于该数据集，研究者们开发了多种矿建工程专用模型，如法律条文自动检索系统、工程规范合规性检查工具等。其思维链增强方法被推广至其他垂直领域，形成了知识蒸馏技术在专业领域应用的新范式。数据集的多模块结构也为跨领域知识融合研究提供了重要参考。

数据集最近研究