five

Mining-Engineering-SFT-CoT

收藏
Hugging Face2025-07-24 更新2025-07-25 收录
下载链接:
https://huggingface.co/datasets/acnul/Mining-Engineering-SFT-CoT
下载链接
链接失效反馈
官方服务:
资源简介:
矿建工程领域中文指令与评估数据集,包含法律法规、工程规范、专业术语、安全事故案例、行业实践经验和领域综合知识六大模块。分为原始训练集、思维链增强训练集、评估集和探针集,适用于提升大型语言模型在矿建工程领域的专业知识与实践能力。
创建时间:
2025-07-24
原始信息汇总

矿建工程领域中文指令与评估数据集(带CoT标注)概述

基本信息

  • 许可证: mit
  • 语言: 中文 (zh)
  • 标签: mining-engineering, instruction-tuning, SFT, chinese, llm, chain-of-thought, cot, knowledge-distillation, reasoning
  • 数据集大小: 33,689,277 字节
  • 下载大小: 18,252,121 字节
  • 训练集样本数: 5,287

数据集结构

  • 特征:
    • prompt: 指令或问题 (string)
    • response: 回答 (string)
    • source: 知识来源类别 (string)
  • 来源类别:
    • 法律法规 (law)
    • 工程规范 (specifications)
    • 专业术语 (concept)
    • 安全事故案例 (safety)
    • 行业实践经验 (forum)
    • 领域综合知识 (synthesis)

数据集特点

  • 核心目标: 推理能力注入 (Reasoning Injection) + 知识灌输
  • response格式: 包含<think>标签包裹的思考过程和最终答案
  • 预期效果: 增强模型的逻辑推理、问题拆解和系统性分析能力

相关数据集

  • 原始训练集: https://huggingface.co/datasets/acnul/Mining-Engineering-SFT
  • 评估集: https://huggingface.co/datasets/acnul/Mining-Engineering-Eval
  • 探针集: https://huggingface.co/datasets/acnul/Mining-Engineering-Probe

构建方法

  • 两阶段知识蒸馏与事实对齐:
    1. 自然思维链生成 (使用DeepSeek R1模型)
    2. 事实对齐与风格融合 (使用DeepSeek V3模型)

引用格式

bibtex @misc{hfut_mining_engineering_datasets_2025, author = {Hefei University of Technology Undergraduate Innovation Program}, title = {A Chinese Instruction and Evaluation Dataset Collection with Chain-of-Thought for the Mining Engineering Domain}, year = {2025}, publisher = {Hugging Face}, journal = {Hugging Face Hub}, howpublished = {https://huggingface.co/datasets/acnul/Mining-Engineering-SFT-CoT} }

搜集汇总
数据集介绍
main_image_url
构建方式
在矿建工程领域,专业知识的准确性与逻辑推理的严密性至关重要。该数据集采用两阶段知识蒸馏与事实对齐的构建方法,首先通过教师模型自然生成思维链草稿,随后利用通用模型进行事实校验与风格融合。这种创新性的流水线设计确保了数据既保留原始问题的专业深度,又具备清晰的推理路径,最终形成包含5,287条高质量指令-回答对的增强数据集。
特点
该数据集最显著的特征在于其独特的思维链标注体系,每条回答均包含<think>标签标注的推理过程与最终答案的二元结构。内容覆盖法律法规、工程规范等六大专业模块,实现了专业知识与逻辑推理能力的双重赋能。通过对比实验验证,该数据集能有效提升模型在复杂工程问题中的系统性分析能力,其多源分类体系也为领域适应性研究提供了便利。
使用方法
研究者可通过Hugging Face生态便捷调用该数据集,支持标准datasets库加载接口。典型应用场景包括领域大模型的监督微调、思维链推理能力评估等。使用时应区分基础训练集与CoT增强版的差异,建议配合配套的评估集进行综合验证。数据加载后可直接融入现有训练流程,其结构化字段设计便于实现定制化的数据采样与组合策略。
背景与挑战
背景概述
矿建工程领域中文指令与评估数据集(Mining-Engineering-SFT-CoT)由合肥工业大学本科生团队于2025年构建,作为大学生创新创业训练计划的重要成果。该数据集专注于提升大型语言模型在中国矿建工程领域的专业能力,涵盖法律法规、工程规范、专业术语、安全事故案例、行业实践经验及领域综合知识六大模块。通过引入思维链(Chain-of-Thought)标注,该数据集不仅强化了模型的知识储备,更显著提升了其逻辑推理与复杂问题解决能力,为矿建工程领域的智能化发展提供了重要数据支撑。
当前挑战
该数据集面临的核心挑战包括两方面:领域问题方面,矿建工程涉及大量专业术语与复杂规范,如何确保模型准确理解并应用这些知识是一大难题;构建过程方面,思维链标注需要高质量的推理逻辑与事实准确性平衡,团队采用两阶段知识蒸馏策略,通过教师模型生成自然思维链,再与标准答案进行事实对齐,这一过程对数据质量与一致性提出了极高要求。
常用场景
经典使用场景
在矿建工程领域,大型语言模型的微调与推理能力提升是当前研究热点。该数据集通过精心设计的指令-回答对,为模型提供了涵盖法律法规、工程规范、专业术语等六大模块的专业知识训练场景。其思维链增强版本尤其适用于需要模型展示复杂推理过程的场景,如安全事故原因分析或工程方案可行性论证,使模型能够逐步拆解问题并给出逻辑严密的回答。
实际应用
在实际工程应用中,该数据集支撑的模型可服务于矿山安全监管、工程标准咨询等场景。例如自动解析安全事故报告中的违规条款,或为现场工程师提供符合行业规范的解决方案。其思维链输出特性尤其适合教学培训场景,可清晰展示专业问题的分析路径,辅助新人工程师快速掌握领域知识体系。
衍生相关工作
基于该数据集的技术路线,已衍生出多个矿建工程领域的创新研究。包括结合知识图谱的增强型推理框架、面向安全规程的多模态理解系统等。其两阶段蒸馏方法更被拓展应用于隧道工程、地质勘探等相邻领域,形成了一系列具有工程实用价值的专业语言模型。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作