CARE to Compare
收藏arXiv2024-04-18 更新2024-06-21 收录
下载链接:
http://dx.doi.org/10.24406/fordatis/343, https://zenodo.org/doi/10.5281/zenodo.10958774
下载链接
链接失效反馈官方服务:
资源简介:
CARE to Compare数据集是由德国弗劳恩霍夫IEE研究所创建,旨在为风力涡轮机的异常检测提供一个高质量的公共数据集。该数据集包含来自36个风力涡轮机的89年真实操作数据,分布在3个不同的风电场。数据集详细记录了异常事件及其导致的故障,共有95个子数据集,其中44个包含标记的异常事件,51个代表正常行为。数据集的创建过程严格遵循了确保数据质量和详细标签的七项要求。该数据集主要应用于风力涡轮机的预测性维护领域,旨在通过精确的异常检测减少意外故障和停机时间。
The CARE to Compare dataset was developed by the Fraunhofer IEE Institute in Germany, with the purpose of providing a high-quality public dataset for anomaly detection in wind turbines. This dataset includes 89 years of real operational data from 36 wind turbines across three distinct wind farms. It thoroughly documents anomalous events and the consequent faults, consisting of 95 subdatasets in total. Of these, 44 subdatasets contain labeled anomalous events, while the remaining 51 correspond to normal operational conditions. The development of this dataset strictly adheres to seven core requirements that guarantee data quality and comprehensive labeling. This dataset is primarily utilized in the predictive maintenance domain for wind turbines, with the objective of reducing unplanned equipment failures and downtime via precise anomaly detection.
提供机构:
弗劳恩霍夫IEE研究所
创建时间:
2024-04-16
搜集汇总
数据集介绍

构建方式
在风力发电领域,异常检测对于预测性维护至关重要,然而公开可用的高质量数据集稀缺,制约了算法比较与进步。CARE to Compare数据集通过整合三个风电场共36台风力发电机的真实运行数据,构建了一个包含89年运行时长的高质量基准数据集。数据采集基于SCADA系统,以10分钟为分辨率记录传感器测量值,涵盖功率、风速等关键参数。为确保数据质量,研究团队制定了七项严格标准,包括异常事件数量、风电场多样性、故障类型平衡以及训练数据的充分性。数据标注采用双层体系:事件层面区分异常与正常行为,时间点层面则依据涡轮状态标识符标记每个数据点的正常性。此外,为保护商业机密,数据经过匿名化处理,移除了直接识别信息,同时保留季节性和传感器关联性,使得数据集既具实用性又符合伦理规范。
使用方法
该数据集为风力涡轮机异常检测算法的开发与评估提供了标准化平台。研究者可首先利用训练数据部分构建正常行为模型,例如自编码器或隔离森林等无监督或半监督方法。预测数据部分包含带标签的异常事件与正常序列,允许算法在接近实际运维的条件下进行测试。数据集中提供的涡轮状态标识符可用于过滤非正常状态数据点,聚焦于预测性维护相关的异常检测。为全面评估算法性能,建议采用论文提出的CARE评分体系,该体系涵盖覆盖率、准确性、可靠性与早期性四个维度,通过加权平均计算综合得分,从而衡量模型在检测异常、识别正常行为、减少误报及早期预警方面的整体表现。数据集以CSV格式公开,便于直接加载与预处理,支持跨风电场与跨故障类型的泛化研究,推动领域内算法的透明比较与持续优化。
背景与挑战
背景概述
在风电预测性维护领域,异常检测技术扮演着关键角色,然而长期以来,该领域缺乏高质量、信息详尽的公开基准数据集,严重制约了不同算法间的有效比较与技术进步。为应对这一挑战,弗劳恩霍夫风能与能源系统技术研究所(Fraunhofer IEE)的研究团队于2024年发布了‘CARE to Compare’数据集。该数据集整合了来自3个风电场、总计36台风力发电机组长达89年的真实运行数据,包含44段标记的异常事件时间序列和51段正常行为数据,并提供了迄今为止最为详尽的故障信息注释。其核心研究目标在于构建一个能够全面评估异常检测算法在风电场景下泛化能力、早期预警准确性与可靠性的高质量基准,从而推动风电预测性维护领域研究方法的标准化与透明化。
当前挑战
该数据集旨在解决风电预测性维护中异常检测算法评估的领域挑战。首要挑战在于算法需在复杂的多变量SCADA时序数据中,精准识别预示组件故障的早期微弱异常模式,同时避免因环境波动(如风速变化)引发的误报。其次,算法必须具备优异的泛化能力,以应对不同风电场、风机型号及故障类型的多样性。在数据集构建层面,挑战同样显著:一是数据标注的复杂性,异常起始点往往模糊不清,需结合运营商反馈、维修报告与专家知识进行综合判定,存在标注不确定性;二是数据质量处理,原始数据中存在大量由通信中断导致的零值或状态信息不一致问题,需进行审慎的清洗与校验;三是数据匿名化与信息保留的平衡,在移除敏感信息(如风机型号、地理位置)的同时,需最大限度保留用于模型训练与评估的关键特征信息,例如通过功率曲线分析所需的风速与功率数据。
常用场景
经典使用场景
在风力发电领域,异常检测是预测性维护的核心环节,而CARE to Compare数据集为此提供了高质量的基准平台。该数据集整合了来自三个风电场、36台风力发电机的真实运行数据,包含44个标记的异常时间序列和51个正常行为序列,覆盖长达89年的运行记录。其经典使用场景在于为研究人员提供标准化的测试环境,以评估和比较不同异常检测算法在风力发电机监控中的性能,特别是在处理高维SCADA数据时,能够有效模拟复杂工况下的故障预警需求。
解决学术问题
该数据集显著解决了风力发电异常检测领域长期存在的学术难题,即公开数据稀缺且标注信息不足的问题。通过提供详细的故障标签、状态标识以及时间序列的起止点,它使得算法评估更具可重复性和可比性。此外,数据集的设计遵循了严格的质控要求,如平衡的异常与正常样本、跨风电场的数据多样性以及季节性覆盖,从而支持了对算法泛化能力、正常行为建模精度以及早期故障检测效果的深入研究,推动了预测性维护方法的标准化进程。
实际应用
在实际工业应用中,CARE to Compare数据集为风力发电场的运维优化提供了直接支持。基于该数据集训练的异常检测模型能够集成到风电场监控系统中,实时分析SCADA数据,提前识别发电机组件如齿轮箱、轴承的潜在故障。这种早期预警能力有助于减少非计划停机时间,降低维护成本,并提升发电效率。数据集的多风电场来源确保了模型在不同地理和气候条件下的适应性,为行业实现智能化、数据驱动的维护策略奠定了实证基础。
数据集最近研究
最新研究方向
在风电预测性维护领域,异常检测算法的性能评估长期受限于高质量公开数据集的稀缺。CARE to Compare数据集的发布,为这一领域注入了新的研究活力。该数据集整合了来自三个风电场、36台风力发电机的真实运行数据,涵盖了长达89年的SCADA时间序列,并提供了44个标记的异常事件和51个正常行为序列,其异常标签的详细程度超越了现有公开数据集。前沿研究正聚焦于利用该数据集的多维信息深度,开发能够同时优化覆盖度、准确性、可靠性和早期性的综合评估指标,如论文提出的CARE评分方法。这一进展不仅推动了跨风场、跨故障类型的算法泛化能力测试,也促进了无监督与半监督异常检测模型在早期故障预警中的公平比较与性能提升,对降低风电运维成本、保障能源系统稳定运行具有深远意义。
相关研究论文
- 1CARE to Compare: A real-world dataset for anomaly detection in wind turbine data弗劳恩霍夫IEE研究所 · 2024年
以上内容由遇见数据集搜集并总结生成



