five

Mining-Engineering-Probe

收藏
Hugging Face2025-07-23 更新2025-07-24 收录
下载链接:
https://huggingface.co/datasets/acnul/Mining-Engineering-Probe
下载链接
链接失效反馈
官方服务:
资源简介:
矿建工程领域中文指令与评估数据集,包括法律法规、工程规范、专业术语、安全事故案例、行业实践经验和领域综合知识六大模块,适用于提升大型语言模型在矿建工程领域的专业知识与实践能力。
创建时间:
2025-07-21
原始信息汇总

矿建工程领域中文指令与评估数据集(探针集)

数据集基本信息

  • 许可证: MIT
  • 语言: 中文 (zh)
  • 标签: mining-engineering, instruction-tuning, SFT, chinese, llm
  • 数据集大小: 209735 字节
  • 下载大小: 195999 字节

数据集结构

特征

  • prompt: 评估问题 (string)
  • response: 评估的黄金标准答案 (string)
  • question_type: 问题的类型分类 (string)
  • source: 数据的知识来源类别 (string)
  • task_id: 每个问题的唯一标识符 (string)

数据拆分

拆分名称 字节数 样本数
concept 8268 3
forum 42620 10
law 6358 5
safety 44881 6
specifications 7579 10
synthesis 100029 16

数据集概述

  • 来源: 合肥工业大学大一学生的大学生创新创业训练计划(大创)项目成果
  • 目的: 提升大型语言模型在中国矿建工程领域的专业知识与实践能力
  • 内容模块:
    1. 法律法规 (law)
    2. 工程规范 (specifications)
    3. 专业术语 (concept)
    4. 安全事故案例 (safety)
    5. 行业实践经验 (forum)
    6. 领域综合知识 (synthesis)

相关数据集

引用格式

bibtex @misc{hfut_mining_engineering_datasets_2025, author = {Hefei University of Technology Undergraduate Innovation Program}, title = {A Chinese Instruction and Evaluation Dataset Collection for the Mining Engineering Domain}, year = {2025}, publisher = {Hugging Face}, journal = {Hugging Face Hub}, howpublished = {url{https://huggingface.co/datasets/acnul/Mining-Engineering-SFT}} }

搜集汇总
数据集介绍
main_image_url
构建方式
在矿建工程领域专业知识的系统化整合过程中,该数据集采用了多源异构数据的融合策略。通过解析法律法规文本、工程规范文件、事故调查报告等权威资料,结合半自动化数据生成技术,构建了覆盖六大核心模块的结构化问答对。特别值得注意的是,在安全事故案例模块创新性地采用了多层次提问范式,从具体案例抽象到通用原理,形成递进式的知识体系。数据标注过程严格遵循领域专家指导原则,确保技术细节的准确性和专业术语的规范性。
特点
该数据集最显著的特征在于其模块化的知识体系设计,将矿建工程领域的复杂知识解构为法律法规、工程规范等六个相互关联又相对独立的子模块。每个模块采用差异化的数据表征方式,如法律条文强调条款的精确对应,安全事故案例则注重因果推理链的完整性。数据集特别设计了思维链增强版本,通过两阶段知识蒸馏策略注入逻辑推理路径,使得模型不仅能回答问题,更能展现专业领域的思维过程。数据分布上注重长尾知识的覆盖,确保模型具备解决实际工程问题的能力。
使用方法
该数据集的使用遵循模块化评估与整体微调相结合的原则。通过Hugging Face datasets库可便捷加载不同功能子集:训练集用于基础模型微调,建议优先采用含思维链的增强版本;评估集按六大模块划分,支持领域能力的细粒度诊断。典型使用流程包括:加载特定模块数据后,先进行分布统计分析以了解数据特征;针对安全规范等专业性强的内容,建议配合领域词典使用;模型验证阶段可利用探针集快速迭代。数据字段设计兼顾机器学习输入格式要求与工程实践需求,prompt-response对可直接用于监督训练,task_id则支持跨模块知识关联分析。
背景与挑战
背景概述
Mining-Engineering-Probe数据集由合肥工业大学本科生团队于2025年构建,作为大学生创新创业训练计划的重要成果。该数据集聚焦于中国矿建工程领域,旨在提升大型语言模型在该专业领域的知识掌握与实践能力。数据集涵盖法律法规、工程规范、专业术语、安全事故案例、行业实践经验及领域综合知识六大模块,通过精心设计的问答对形式,为模型微调与评估提供了专业化语料支持。其构建体现了跨学科协作的特点,将矿业工程专业知识与自然语言处理技术有机结合,为领域内智能问答系统的开发奠定了数据基础。
当前挑战
该数据集面临的挑战主要体现在两个方面:领域专业性方面,矿建工程涉及大量专业术语与技术规范,要求模型具备精准的领域知识理解与合规性判断能力,这对数据标注的准确性与覆盖广度提出了极高要求;数据构建方面,从非结构化的法律文本、事故报告等原始材料中提取有效信息并转化为标准问答对,需要复杂的数据工程处理流程,同时保持知识表达的严谨性与多样性存在显著难度。此外,如何平衡不同子领域样本的分布,确保模型在各专业模块上的均衡发展,也是构建过程中需要解决的关键问题。
常用场景
经典使用场景
在矿建工程领域,该数据集被广泛应用于大型语言模型的监督式微调(SFT)和评估。通过六大模块(法律法规、工程规范、专业术语、安全事故案例、行业实践经验和领域综合知识)的问答对,模型能够系统性地学习矿建工程的核心知识。特别是在思维链增强训练集(CoT-Enhanced SFT Dataset)中,两阶段知识蒸馏策略显著提升了模型的逻辑推理与深度分析能力,使其在复杂工程问题的解决中表现优异。
衍生相关工作
基于该数据集,研究者们开发了多种矿建工程专用模型,如法律条文自动检索系统、工程规范合规性检查工具等。其思维链增强方法被推广至其他垂直领域,形成了知识蒸馏技术在专业领域应用的新范式。数据集的多模块结构也为跨领域知识融合研究提供了重要参考。
数据集最近研究
最新研究方向
随着矿业智能化转型的深入推进,Mining-Engineering-Probe数据集正推动矿建工程领域自然语言处理研究向纵深发展。当前研究聚焦于多模态知识融合技术,将文本数据与三维地质模型、设备传感器数据相结合,构建具有空间认知能力的专业语言模型。在安全生产监管领域,该数据集支撑的事故案例推理系统可实时解析事故报告文本,自动生成预防措施建议,相关成果已应用于多个智能矿山建设项目。数据集中精心设计的对抗性样本和思维链标注,为探索领域大模型的逻辑漏洞检测与自我修正机制提供了重要实验基础,这种技术路径在2024年中国国际矿业装备展览会上受到广泛关注。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作