Mining-Engineering-SFT
收藏Hugging Face2025-07-23 更新2025-07-24 收录
下载链接:
https://huggingface.co/datasets/acnul/Mining-Engineering-SFT
下载链接
链接失效反馈官方服务:
资源简介:
矿建工程领域中文指令与评估数据集,是合肥工业大学大一学生的大创项目成果,专为提升大型语言模型在中国矿建工程领域的专业知识与实践能力而设计。数据集内容覆盖法律法规、工程规范、专业术语、安全事故案例、行业实践经验和领域综合知识六大模块,分为训练集、评估集和探针集三个独立仓库,支持模型的微调、评估和验证。
创建时间:
2025-07-21
原始信息汇总
矿建工程领域中文指令与评估数据集
数据集概述
- 项目背景:合肥工业大学大一学生的大学生创新创业训练计划(大创)项目成果。
- 目的:提升大型语言模型在中国矿建工程领域的专业知识与实践能力。
- 内容覆盖:
- 法律法规 (law)
- 工程规范 (specifications)
- 专业术语 (concept)
- 安全事故案例 (safety)
- 行业实践经验 (forum)
- 领域综合知识 (synthesis)
数据集结构
训练集 - acnul/Mining-Engineering-SFT
- 拆分:
train - 样本数量:5,287条
- 特征:
prompt:指令或问题response:理想回答source:数据来源类别(六类之一)
评估集与探针集
- 评估集:
acnul/Mining-Engineering-Eval- 拆分:
concept,forum,law,safety,specifications,synthesis - 特征:
prompt:评估问题response:黄金标准答案question_type:问题类型分类source:知识来源类别task_id:唯一标识符
- 拆分:
- 探针集:
acnul/Mining-Engineering-Probe- 样本数量:50条
构建方法
- 法律法规:基于核心法律文本生成问答对,设计对抗性样本。
- 工程规范:从权威标准提取技术要求并转化为问答形式。
- 安全事故案例:分析事故调查报告,设计多层次提问范式。
- 行业实践与综合知识:结合从业者经验生成问答数据。
如何使用
python from datasets import load_dataset
加载SFT数据集
sft_dataset = load_dataset("acnul/Mining-Engineering-SFT")
加载评估集
eval_dataset = load_dataset("acnul/Mining-Engineering-Eval")
引用
bibtex @misc{hfut_mining_engineering_datasets_2025, author = {Hefei University of Technology Undergraduate Innovation Program}, title = {A Chinese Instruction and Evaluation Dataset Collection for the Mining Engineering Domain}, year = {2025}, publisher = {Hugging Face}, journal = {Hugging Face Hub}, howpublished = {url{https://huggingface.co/datasets/acnul/Mining-Engineering-SFT}} }
搜集汇总
数据集介绍

构建方式
在矿建工程领域知识体系构建过程中,该数据集采用了多源异构数据融合技术。针对法律法规模块,基于权威法律文本通过对抗性样本生成技术增强模型辨伪能力;工程规范模块则通过标准文档结构化解析,将技术指标转化为可训练的问答范式;安全事故案例采用多层次递进式设计,实现从具体案例到原理泛化的知识迁移;行业实践数据则通过半自动化流程整合一线经验与长尾知识,形成覆盖全面的训练样本。
特点
该数据集具有鲜明的领域专业性和系统化知识结构,涵盖法律法规、工程规范等六大核心模块。其特色在于采用模块化设计理念,每个知识类别均保持独立特征标识,便于针对性训练与评估。数据样本经过严格的质量控制,既包含基础概念解析,也设计了具有挑战性的技术细节问题,能够全面检验模型的专业知识掌握程度和实际应用能力。
使用方法
通过Hugging Face生态工具可实现数据集的便捷调用与灵活应用。使用load_dataset方法可直接加载训练集或评估集,其中训练集采用单一整合结构,而评估集则按知识模块划分独立子集。开发者可通过source字段实现数据分类筛选,结合pandas等工具进行分布统计分析。针对不同训练目标,可选择性加载基础训练集或思维链增强版本,实现从知识灌输到推理能力培养的渐进式模型优化。
背景与挑战
背景概述
Mining-Engineering-SFT数据集由合肥工业大学本科生团队于2025年构建,作为大学生创新创业训练计划的成果。该数据集聚焦于中国矿建工程领域,旨在提升大型语言模型在该垂直领域的专业能力。数据集覆盖法律法规、工程规范、专业术语、安全事故案例、行业实践经验及领域综合知识六大模块,包含5,287条高质量的中文指令-回答对。作为领域专用数据集,其创新性地采用两阶段知识蒸馏策略生成思维链标注,为矿建工程领域的自然语言处理研究提供了重要基准。
当前挑战
该数据集面临的主要挑战体现在两个方面:领域知识整合方面,矿建工程涉及大量专业术语和技术规范,需要确保知识表述的准确性和权威性;数据构建过程中,安全事故案例的多层次解析和工程规范的量化指标转化都面临专业壁垒。技术实现层面,对抗性样本的生成和递进式提问范式的设计需要平衡专业深度与模型可学习性,而思维链标注的质量控制更是直接影响模型推理能力的关键因素。
常用场景
经典使用场景
在矿建工程领域,专业知识的获取与传递一直是行业发展的核心需求。Mining-Engineering-SFT数据集通过精心构建的5287条高质量指令-回答对,为大型语言模型在该领域的微调提供了坚实基础。该数据集覆盖法律法规、工程规范、专业术语等六大模块,特别适合用于训练模型理解矿建工程中的技术文档、安全规程和行业实践,成为连接人工智能技术与传统工程领域的桥梁。
解决学术问题
该数据集有效解决了矿建工程领域自然语言处理中的三大挑战:专业术语理解不足、技术规范解析困难以及安全事故案例分析缺乏系统性。通过结构化呈现领域知识,它不仅提升了模型对工程文本的语义捕捉能力,更为重要的是建立了从法律条文到实践案例的多维度知识体系,为后续研究提供了标准化的评估基准。这种知识组织形式显著降低了领域适应(Domain Adaptation)的研究门槛。
衍生相关工作
该数据集已催生多个创新研究方向,包括基于思维链增强的矿建知识推理框架、多模态工程规范理解系统等。其衍生的CoT-Enhanced版本开创性地采用两阶段知识蒸馏策略,推动了领域专用大模型的解释性研究。相关成果为DeepSeek-R1、Qwen3等模型的领域适配提供了重要参考,形成了一套完整的从基础微调到能力评估的方法论体系。
以上内容由遇见数据集搜集并总结生成



