five

Universal Vibration Analysis Dataset|振动分析数据集|机械健康监测数据集

收藏
arXiv2025-04-16 更新2025-04-18 收录
振动分析
机械健康监测
下载链接:
http://arxiv.org/abs/2504.11581v1
下载链接
链接失效反馈
资源简介:
该数据集由多个公共轴承振动数据集组成,包括CWRU、UORED-VAFCLS、HUST和PADERBORN数据集,目的是创建一个涵盖各种机器类型、运行状态和故障类型的大型振动信号数据集。数据集的初步重点是轴承振动数据,随后将扩展到更多类型的机械和传感器。每个样本都将根据机器类型、运行状态和故障类型进行标记,以适用于监督和非监督学习任务。该数据集旨在成为振动分析的通用资源,适用于制造业、航空航天和能源等行业的预测维护和机械状况监测。
提供机构:
加拿大渥太华大学, 巴西联邦Espírito Santo大学, 巴西Espírito Santo联邦学院
创建时间:
2025-04-16
AI搜集汇总
数据集介绍
main_image_url
构建方式
Universal Vibration Analysis Dataset的构建采用了多源公开轴承振动数据集融合的策略,以轴承振动信号为切入点,通过整合CWRU、UORED-VAFCLS、HUST和PADERBORN等权威数据集形成基础架构。数据预处理阶段采用标准化时频转换技术,通过汉宁窗短时傅里叶变换生成256×512像素的RGB谱图,设置1600点FFT、96%重叠率和0-10kHz频带范围,确保不同采样率数据的空间对齐。数据集采用分层存储架构VibData,按设备类型、工况状态(正常/内圈故障/外圈故障等)、载荷条件等维度进行结构化标注,并配套开发VibSoft软件层实现数据采样、谱图转换和特征提取的流程标准化。
特点
该数据集的核心特征体现在其工业普适性和多模态融合能力:1) 涵盖4类轴承型号、7种转速工况(600-1800RPM)及复合故障模式,包含健康状态、单点故障和复合故障三类标签体系;2) 独创性地采用时频域谱图作为统一表征形式,既保留原始振动信号的瞬态冲击特征,又解决多源数据采样参数异构问题;3) 配套元数据体系完整记录传感器类型(加速度计/麦克风)、故障严重度(0.007-0.028英寸)、载荷条件(0-3马力)等36维工况参数,支持监督学习与无监督异常检测双范式。特别设计的K折交叉验证方案(K=4)可有效规避载荷条件与故障尺寸的分布偏差,确保模型评估的鲁棒性。
使用方法
该数据集推荐采用迁移学习双阶段框架:1) 预训练阶段使用HUST、UORED-VAFCLS和PADERBORN三源数据,基于DenseNet121架构(批尺寸32,初始学习率0.01)构建通用振动特征提取器;2) 微调阶段提供全微调(更新全部权重)和部分微调(冻结特征层)两种策略,针对目标数据集(如CWRU)采用早停机制和动态学习率衰减(ReduceLROnPlateau)。实验表明,在轴承故障分类任务中,VibNet预训练模型较ImageNet迁移的宏F1值提升7.46%(载荷划分)和13.46%(故障尺寸划分)。用户可通过GitHub开放的vibdata和vibnet-experiments模块实现谱图生成、交叉验证及对比实验的完整复现。
背景与挑战
背景概述
Universal Vibration Analysis Dataset(UVAD)是由Mert Sehri等人于2025年提出的振动分析基准数据集,旨在为预测性维护、结构健康监测等领域的迁移学习研究提供标准化数据支持。该数据集由加拿大渥太华大学与巴西联邦大学等机构联合开发,核心研究聚焦于轴承振动信号的时频表征,通过整合CWRU、UORED-VAFCLS等公开数据集构建初始框架。其创新性体现在采用类ImageNet的架构设计,首次实现了振动分析领域大规模标注数据的系统化组织,为深度学习模型在工业诊断中的泛化性能提升奠定了数据基础。
当前挑战
该数据集面临双重挑战:在领域问题层面,振动信号具有非平稳性、工况依赖性等复杂特性,且正常样本与故障样本比例严重失衡,导致模型泛化能力受限;在构建过程中,需解决多源数据采样率差异(12kHz-64kHz)、传感器异构(加速度计/麦克风)、故障类型标注标准不统一等技术难题。此外,时频转换中窗函数选择、频谱分辨率与时间分辨率的权衡,以及迁移学习时特征空间对齐等问题,均为数据集构建的关键挑战。
常用场景
经典使用场景
Universal Vibration Analysis Dataset(UVAD)作为振动分析领域的基准数据集,其经典应用场景主要集中在机械故障诊断与预测性维护领域。通过整合多源轴承振动数据(如CWRU、UORED-VAFCLS等公开数据集),该数据集为时频域谱图分析提供了标准化输入,支持深度学习模型在轴承内圈/外圈故障、滚动体损伤等典型机械故障的迁移学习任务中实现高精度分类。其分层数据架构(VibData)与模块化处理流程(VibSoft)使得研究者能够快速构建从信号预处理(STFT谱图生成)到模型微调(DenseNet121架构)的完整实验管线。
解决学术问题
该数据集解决了振动分析领域三个核心学术问题:其一,通过融合多工况、多故障类型的轴承振动数据(涵盖0-10kHz共振频段),缓解了小样本条件下模型泛化能力不足的难题;其二,提出的谱图标准化方法(256×512像素RGB/灰度图像)统一了异构传感器的数据表征,克服了传统时域特征提取依赖专家经验的问题;其三,基于迁移学习的预训练-微调范式(如VibNet与ImageNet权重对比实验)验证了跨域知识迁移的可行性,在CWRU负载划分测试中达到97.39%平衡准确率,显著优于从零训练的模型。
衍生相关工作
该数据集衍生出两类代表性研究:方法学层面,催生了基于谱图数据增强的少样本学习(如Wang等人2020年提出的元学习框架)和跨域自适应诊断模型(Zhang等人2024年的特征融合算法);工程应用层面,推动了PHM(Prognostics and Health Management)领域的标准化进程,如Atmaja等人(2024)发布的实验室级振动基准数据集均参照UVAD的元数据规范。其开源框架VibNet-Experiments更成为后续研究(如复合故障诊断、多模态传感器融合)的基础代码库。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

网易云音乐数据集

该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息,数据通过爬虫技术获取并整理成CSV格式,用于音乐数据挖掘和推荐系统构建。

github 收录

全国 1∶200 000 数字地质图(公开版)空间数据库

As the only one of its kind, China National Digital Geological Map (Public Version at 1∶200 000 scale) Spatial Database (CNDGM-PVSD) is based on China' s former nationwide measured results of regional geological survey at 1∶200 000 scale, and is also one of the nationwide basic geosciences spatial databases jointly accomplished by multiple organizations of China. Spatially, it embraces 1 163 geological map-sheets (at scale 1: 200 000) in both formats of MapGIS and ArcGIS, covering 72% of China's whole territory with a total data volume of 90 GB. Its main sources is from 1∶200 000 regional geological survey reports, geological maps, and mineral resources maps with an original time span from mid-1950s to early 1990s. Approved by the State's related agencies, it meets all the related technical qualification requirements and standards issued by China Geological Survey in data integrity, logic consistency, location acc racy, attribution fineness, and collation precision, and is hence of excellent and reliable quality. The CNDGM-PVSD is an important component of China' s national spatial database categories, serving as a spatial digital platform for the information construction of the State's national economy, and providing informationbackbones to the national and provincial economic planning, geohazard monitoring, geological survey, mineral resources exploration as well as macro decision-making.

DataCite Commons 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)

OpenDataLab 收录

Traditional-Chinese-Medicine-Dataset-SFT

该数据集是一个高质量的中医数据集,主要由非网络来源的内部数据构成,包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容,质量优异,信息密度可观。数据集适用于预训练或继续预训练用途,未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用,但建议先使用配套的预训练数据集对模型进行继续预训练后,再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据,以避免灾难性遗忘并加强模型表现。

huggingface 收录