gospelgit/Nigeria_Machinery_Dataset
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/gospelgit/Nigeria_Machinery_Dataset
下载链接
链接失效反馈官方服务:
资源简介:
一个结构化的数值数据集,涵盖尼日利亚工业制造和石油天然气行业从2006年到2025年的机械设备使用率、设备故障、产能利用率、维护成本和操作停机时间等数据。数据集分为两部分:原始数据集和适应值数据集(LLM推理数据集)。原始数据集包含89条记录,涵盖28个指标(如产能利用率、停机时间、维护支出、停机次数、能源成本、生产输出等)。适应值数据集包含78行×12列的LLM提示-完成对,专注于数值推理任务,每一条目包括增强提示、已验证的数值答案和逐步推理轨迹。数据集适用于预测性维护建模、工业故障分析、能源和制造政策研究以及尼日利亚工业的经济基准测试。
A structured numeric dataset covering machinery usage rates, equipment failures, capacity utilization, maintenance costs, and operational downtime across Nigerias industrial manufacturing and oil & gas sectors from 2006 to 2025. The dataset consists of two parts: the original dataset and the adapted values dataset (LLM Reasoning Dataset). The original dataset contains 89 records covering 28 indicators (e.g., capacity utilization, downtime, maintenance spend, shutdowns, energy costs, production output). The adapted values dataset contains 78 rows × 12 columns of LLM prompt-completion pairs focused on numerical reasoning tasks, each including an enhanced prompt, a verified numeric answer, and a chain-of-thought reasoning trace. The dataset is suitable for predictive maintenance modeling, industrial failure analysis, energy and manufacturing policy research, and economic benchmarking of Nigerian industry.
提供机构:
gospelgit
搜集汇总
数据集介绍

构建方式
该数据集以尼日利亚工业制造与油气行业的机械设备运行为核心,系统整合了2006至2025年间关于设备利用率、故障次数、维护成本及停机时长等28项数值型指标。数据来源涵盖官方统计与行业记录,经编码化处理形成89条结构化记录,其中工业机械领域38条、油气领域51条。为进一步适配大语言模型的数值推理能力,研究团队从原始数据中精选78个数据点,构造了包含增强提示、验证答案及链式推理轨迹的配对样本,形成12列无缺失值的推理数据集。
特点
数据集兼具行业深度与模型适配性,原始部分以统一的数值编码体系覆盖产能利用率、能源成本等关键运营参数,支撑设备故障预测与经济分析。推理子集则通过<增强提示>注入领域约束,并记录模型输出的数值完成项与逐步推理过程,为评估大语言模型在温度换算、遥测计算等工程场景中的精确数值生成能力提供了标准化基准。所有字段均缺失,均值约1394的数值分布进一步检验模型对量级差异的敏感度。
使用方法
研究人员可直接将原始89条记录用于监督学习中的设备故障分类与产能回归任务。针对大语言模型微调,推荐使用78条推理样本:以<增强提示>作为输入,引导模型生成数值答案,并配合<推理轨迹>进行思维链调优。需注意<增强完成项>与真实值存在比例缩放关联,使用者应校验对齐情况。该数据集特别适用于预测性维护建模、工业政策分析及跨领域数值推理基准测试。
背景与挑战
背景概述
Nigeria_Machinery_Dataset是一个聚焦尼日利亚工业制造与油气行业机械设备使用与故障的结构化数值数据集,由Adaption Labs团队于近期整理发布。该数据集涵盖了2006至2025年间89条记录、28项指标,包括设备利用率、故障次数、维护成本及停机时间等关键信息,旨在为预测性维护、故障分析及产业政策研究提供基础数据支撑。作为非洲地区少有的精细级别工业设备运行数据集,它为理解尼日利亚乃至西非工业发展现状与设备管理效率提供了量化视角,对推动低资源地区工业智能化研究具有重要参考价值。
当前挑战
该数据集所解决的领域问题主要源于尼日利亚工业设备管理中的数据稀缺与记录零散现状,难以支撑可靠的故障预测与效益分析。构建过程中面临多重挑战:一是数据来源分散,需从多个工业部门整合历史运营记录,保证时间跨度和指标一致性;二是原始数据经过编码化处理,增加了模型使用前的解读成本;三是仅有89条样本,限制了深度学习的直接应用及统计推断的稳健性。这些挑战既反映了工业物联网欠发达地区的数据获取困境,也凸显了在小样本条件下进行工业推理研究的难度。
常用场景
经典使用场景
该数据集聚焦尼日利亚工业制造与油气两大支柱产业的机械运行状态,收录了2006至2025年间设备利用率、故障频次、维护成本及停机时长等28项关键指标。研究者常将其用于构建设备故障预测模型,通过时序特征与多维数值变量间的关联挖掘,识别机械衰退的早期信号。数据集的跨年度跨度与双行业覆盖特性,使其成为探究非洲新兴经济体工业设备动态演化的珍贵样本。
解决学术问题
在学术前沿,该数据集有效回应了资源受限环境下工业系统可靠性建模的挑战,突破了传统故障预测研究对欧美成熟制造业数据的依赖。通过量化维护开支、产能波动与停机风险间的非线性关系,为发展中国家的设备生命周期管理理论提供了实证基础。同时,其编码化的数值推理任务设计,推动了大型语言模型在结构化工业数据分析中的鲁棒性评估,开辟了自然语言处理与工业工程交叉研究的新路径。
衍生相关工作
围绕该数据集衍生了若干标志性工作:首先,基于其数值推理子集(78条12列的推理链样本),研究者开发了面向工业场景的链式思维(Chain-of-Thought)微调方法,显著提升了大模型在设备故障归因任务上的计算精度。其次,部分工作将其与温度遥测、传感器时序数据融合,构建了跨域迁移学习的设备健康评估框架。此外,数据集的编码体系催生了面向非规范结构化数据的提示工程(Prompt Engineering)方法论,成为非洲工业AI领域的重要基准资源。
以上内容由遇见数据集搜集并总结生成



