ai4i 2020 predictive maintenance dataset|预测性维护数据集|工业设备数据集
收藏数据集概述
数据集名称
Machine Learning for Predictive Maintenance
数据集来源
UCI Machine Learning Repository
数据集描述
该数据集反映了工业中遇到的真实预测性维护场景,包含来自真实设备的测量数据。特征描述直接取自数据集源。
特征变量
- Air temperature [K]: 使用随机游走过程生成,随后标准化为围绕300 K的标准差为2 K。
- Process temperature [K]: 使用随机游走过程生成,标准化为1 K的标准差,并添加到空气温度上再加10 K。
- Rotational speed [rpm]: 从2860 W的功率计算得出,叠加了正态分布的噪声。
- Torque [Nm]: 扭矩值围绕40 Nm正态分布,标准差为10 Nm,且无负值。
- Tool wear [min]: 质量变体H/M/L分别为使用的工具增加了5/3/2分钟的磨损时间。
目标变量
- Machine failure: 故障或无故障(用于二分类)。
- Failure Type: 故障类型(用于多分类)。
故障类型
- Tool wear failure (TWF): 工具在故障时将被更换。
- Heat dissipation failure (HDF): 散热导致过程故障。
- Power failure (PWF): 扭矩和旋转速度(以rad/s为单位)的乘积等于过程所需的功率。
- Overstrain failure (OSF): 过载故障。
- Random failures (RNF): 每个过程有0.1%的几率发生故障,无论其过程参数如何。
附加变量
- UID: 唯一标识符,范围从1到10000。
- Product ID: 由字母L、M或H组成,分别代表低(50%的产品)、中(30%)和高(20%)质量变体,以及变体特定的序列号。

中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
Breast Cancer Dataset
该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。
github 收录
CliMedBench
CliMedBench是一个大规模的中文医疗大语言模型评估基准,由华东师范大学等机构创建。该数据集包含33,735个问题,涵盖14个核心临床场景,主要来源于顶级三级医院的真实电子健康记录和考试练习。数据集的创建过程包括专家指导的数据选择和多轮质量控制,确保数据的真实性和可靠性。CliMedBench旨在评估和提升医疗大语言模型在临床决策支持、诊断和治疗建议等方面的能力,解决医疗领域中模型性能评估的不足问题。
arXiv 收录
YOLO Drone Detection Dataset
为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。
github 收录
HyperGlobal-450K - 全球最大规模高光谱图像数据集
HyperGlobal-450K数据集由武汉大学联合国内外多所知名高校及研究机构共同构建,是迄今为止全球规模最大的高光谱图像数据集。该数据集包含约45万张高光谱图像,规模等价于超过2000万张不重叠的三波段图像,远超现有的同类数据集。数据集涵盖了全球范围内的高光谱遥感图像,包括来自地球观测一号(EO-1)Hyperion和高分五号(GF-5B)两种传感器的图像,光谱范围从可见光到短波及中波红外,具有从紫外到长波红外的330个光谱波段,空间分辨率为30米。每幅图像经过精心处理,去除了无效波段和水汽吸收波段,保留了具有实际应用价值的光谱信息。HyperGlobal-450K数据集不仅支持高光谱图像的基础研究,还能够用于开发和测试各种高光谱图像处理方法,比如图像分类、目标检测、异常检测、变化检测、光谱解混、图像去噪和超分辨率等任务。
github 收录