healthcare_equipment_data|医疗设备数据集|故障预测数据集
收藏Predictive Maintenance for Healthcare Equipment
数据集概述
数据集文件
- healthcare_equipment_data.csv: CSV格式的数据集文件。
- healthcare_equipment_data.xlsx: Excel格式的数据集文件(可选)。
数据集特征
- equipment_id: 设备的唯一ID。
- usage_hours: 设备的使用小时数。
- temperature: 设备的运行温度(单位:度)。
- vibration_level: 设备的振动强度。
- pressure_level: 设备的运行压力。
- last_maintenance: 上次维护以来的小时数。
- failure: 二元目标变量,表示是否发生故障(1 = 是,0 = 否)。
项目文件
- notebook.ipynb: 包含数据预处理、可视化、模型构建和评估的完整代码的Jupyter笔记本。
- README.md: 提供项目概述的文件。
Jupyter笔记本步骤
1. 导入库
- 导入必要的库,如
pandas
、numpy
、matplotlib
、seaborn
和sklearn
中的机器学习工具。
2. 数据加载和探索
- 使用
pd.read_csv()
或pd.read_excel()
加载数据集。 - 进行初始数据探索,包括检查数据集结构(
.info()
、.describe()
)、处理缺失值和可视化特征分布。
3. 数据可视化
- 使用
matplotlib
和seaborn
生成直方图和相关性热图,探索特征关系。
4. 数据预处理
- 处理缺失值、编码分类特征(如果适用),并将数据集拆分为训练集和测试集。
- 使用
StandardScaler()
标准化特征,以规范化数据用于机器学习模型。
5. 模型构建
- 使用随机森林分类器进行预测任务。
- 在训练集上训练模型,并在测试集上进行预测。
6. 模型评估
- 使用混淆矩阵、准确率分数和分类报告评估模型,以评估模型在预测设备故障方面的性能。
7. 特征重要性
- 绘制特征重要性图,以理解每个特征对故障预测的影响。
8. 结论
- 提供模型性能的总结,并分析哪些因素在预测设备故障中最为关键。

MedDialog
MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。
github 收录
GME Data
关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。
github 收录
flames-and-smoke-datasets
该仓库总结了多个公开的火焰和烟雾数据集,包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述,包括数据来源、图像数量、标注信息等。
github 收录
RAVDESS
情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。
OpenDataLab 收录
THUCNews
THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。
github 收录