SDWPF
收藏arXiv2025-09-30 收录
下载链接:
https://aistudio.baidu.com/competition/detail/152/
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为SDWPF,包含了在245天内,从一个拥有134台风机的风电场每10分钟采集一次的4,727,520条记录。每条记录都包含了关键的外部特征(如风速、风向和温度)以及重要的内部特征(如机舱内部温度和机舱方向)。此外,该数据集还包含了用于预测接下来144个时间段的风力发电量的144个时间槽,并使用了Z分数标准化方法进行归一化处理。该数据集的规模属于大型,其任务是对风力发电进行预测。
The dataset is named SDWPF. It contains 4,727,520 records collected every 10 minutes from a wind farm with 134 wind turbines over a 245-day period. Each record includes key external features such as wind speed, wind direction and ambient temperature, as well as critical internal features like nacelle internal temperature and nacelle orientation. Additionally, the dataset provides 144 time slots for forecasting wind power generation over the subsequent 144 time periods, and all data has been normalized using the Z-score standardization method. This is a large-scale dataset, and its core task is wind power prediction.
提供机构:
Longyuan Power Group Corp. Ltd.
搜集汇总
数据集介绍

构建方式
在风电预测领域,数据集的构建需兼顾时空特性与动态环境因素。SDWPF数据集源自中国龙源电力集团的实际风电场景,通过监控与数据采集系统,以10分钟为间隔持续采集了134台风力发电机超过半年的运行数据。该数据集不仅记录了每台涡轮机的空间相对位置,还整合了风速、风向、环境温度等外部气象特征,以及涡轮机内部温度、机舱方向、叶片桨距角等关键状态参数,从而构建了一个涵盖时空动态关联的综合性风电预测基准。
特点
SDWPF数据集在风电预测研究中展现出独特优势,其核心在于融合了空间分布与动态上下文信息。与以往仅关注时间序列的预测数据集不同,该数据集提供了134台涡轮机的精确相对位置,便于建模涡轮机间的空间相关性;同时,动态上下文因素如实时天气状况和涡轮机内部运行状态被纳入,增强了预测模型的解释能力。数据规模覆盖245天、超过470万条记录,且针对异常值、缺失值和未知值进行了规范化处理,确保了数据质量与实用性。
使用方法
该数据集主要用于推动时空动态风电预测方法的研究,特别是在KDD Cup 2022竞赛中作为评估基准。使用者需基于历史SCADA数据及空间信息,预测未来48小时内风电场的总输出功率,时间分辨率为10分钟。评估时采用滚动预测窗口,以均方根误差和平均绝对误差的平均值作为主要指标,并考虑了数据中的缺失与未知值。数据集附有基于门控循环单元的基线代码,支持研究者进行模型训练与验证,旨在探索风电预测精度的极限。
背景与挑战
背景概述
在可再生能源领域,风电因其清洁特性而备受青睐,但其固有的间歇性与波动性对电网稳定构成严峻挑战。为应对这一难题,风电功率预测(WPF)成为确保电力系统安全运行的核心技术。2022年,百度研究院联合龙源电力集团与清华大学,共同构建了空间动态风电功率预测数据集SDWPF,旨在通过精细化的时空建模提升预测精度。该数据集收录了风电场内134台风机超过半年的运行数据,涵盖风机空间位置、内部状态及外部环境等多维度信息,为KDD Cup 2022竞赛提供了重要基准,推动了风电预测领域从传统时间序列分析向时空动态建模的范式转变。
当前挑战
SDWPF数据集所针对的风电功率预测问题,面临多重挑战:其一,风电功率受风速、温度、风机状态等多因素非线性耦合影响,传统模型难以捕捉其复杂时空关联;其二,预测需在未知未来气象数据的条件下进行,增加了长期预测的不确定性。在数据集构建过程中,挑战同样显著:原始SCADA系统数据存在大量缺失值、异常值及因停机导致的未知功率记录,需设计严谨的数据清洗规则;同时,风机空间分布信息的引入要求建模方法能有效融合地理邻近性与风流传播效应,这对算法设计提出了更高要求。
常用场景
经典使用场景
在可再生能源领域,风电功率预测对于电网稳定运行至关重要。SDWPF数据集以其独特的空间动态特性,为风电功率预测研究提供了经典场景。该数据集包含一个风电场中134台风力发电机超过半年的高分辨率数据,每10分钟记录一次,并提供了风力发电机的相对位置、风速、风向、温度等外部环境因素,以及机舱内部温度、叶片桨距角等内部状态信息。这使得研究者能够深入探索时空相关性在风电预测中的关键作用,尤其是在多风机协同预测的场景下,如何利用空间分布信息提升预测精度成为核心研究焦点。
实际应用
在实际应用中,SDWPF数据集为电力系统的运营与调度提供了重要支撑。基于该数据集开发的预测模型能够帮助电网运营商提前48小时精准预测风电场的功率输出,从而优化发电计划,平衡电力供需,减少对备用电源的依赖。这直接增强了电网接纳高比例可再生能源的能力,降低了运营成本与碳排放。此外,该数据集还可用于风机状态监测与故障预警,通过分析内部状态数据,实现预防性维护,提升风电场整体运行效率与可靠性,为智慧能源管理系统的构建提供数据驱动的基础。
衍生相关工作
SDWPF数据集的发布催生了一系列经典的衍生研究工作。作为KDD Cup 2022挑战赛的核心数据,它吸引了全球研究团队开发新颖的时空预测算法,例如结合图神经网络(GNN)与循环神经网络(RNN)的混合架构,以同时捕捉风机间的空间依赖性和时间动态性。这些工作不仅提升了风电预测的基准性能,还推动了时空数据挖掘、序列预测等通用机器学习方法的发展。此外,基于该数据集的研究成果常被后续工作引用,作为评估新模型在复杂时空预测任务上有效性的重要基准,持续影响着可再生能源与人工智能交叉领域的研究方向。
以上内容由遇见数据集搜集并总结生成



