Comprehensive Load Forecasting Archive|电力负荷预测数据集|数据集数据集

arXiv2023-07-14 更新2024-08-06 收录

电力负荷预测

数据集

下载链接：

http://arxiv.org/abs/2307.07191v1

下载链接

链接失效反馈

资源简介：

本研究提供了一个全面的电力负荷预测数据集，包含11个不同来源的数据集，主要来自UCI机器学习数据库、Kaggle数据竞赛平台和全球能源预测竞赛。数据集涵盖了从建筑级到聚合级的负荷数据，以及温度等外部变量，旨在为电力系统的日前调度提供重要参考。数据集的创建过程中，特别关注了温度和日历变量对负荷的影响，并通过特定的特征工程方法来优化预测模型。该数据集的应用领域主要集中在电力负荷预测，特别是为电力系统的经济调度和运营决策提供支持。

提供机构：

阿里巴巴达摩院

创建时间：

2023-07-14

AI搜集汇总

数据集介绍

构建方式

Comprehensive Load Forecasting Archive (CLFA) 数据集的构建方式采取了广泛的数据收集策略，汇集了来自不同来源的11个数据集，涵盖了包括电力系统、建筑能耗、以及受COVID-19影响的电力系统在内的多个领域。这些数据集不仅包含了不同层次（如建筑级和汇总级）的电力负载数据，还包含了可能对电力负载产生重大影响的气象数据，如温度。此外，数据集还采用了不同的预测设置，例如，为电网的日前调度需求而采用的24小时提前预测设置，从而为研究者提供了丰富的数据资源。

特点

CLFA数据集的特点在于其全面性和多样性。首先，它提供了不同层次和类型的电力负载数据，使得研究者能够针对不同的预测场景进行模型评估。其次，数据集包含了丰富的外部变量数据，如温度，这对于建立更准确的预测模型至关重要。此外，CLFA还包含了受COVID-19影响的电力负载数据，这对于评估模型的鲁棒性提供了宝贵的资源。最后，数据集采用了特殊的预测设置，如24小时提前预测，以模拟实际电网调度的需求。

使用方法

使用CLFA数据集的方法包括数据预处理、特征工程、预测模型的选择和训练、后处理以及评估。首先，用户可以使用数据预处理功能，如缺失值填充，以确保数据质量。其次，用户可以根据数据集特点进行特征工程，例如，利用温度和日历变量进行特征转换。然后，用户可以选择合适的预测模型，如基于深度学习或传统机器学习的方法，并进行训练。在得到预测结果后，用户可以使用后处理功能，如排序，以确保预测结果的准确性。最后，用户可以使用多种评估指标，如Pinball Loss和Winkler Score，来评估模型的预测性能。

背景与挑战

背景概述

电力负荷预测在电力行业中具有重要意义，因为它可以为后续任务如电网调度提供参考，从而带来巨大的经济效益。然而，负荷预测与传统的时间序列预测存在许多差异。首先，负荷预测旨在最小化后续任务如电网调度的成本，而不仅仅是追求预测精度。其次，负荷受到许多外部因素的影响，例如温度或日历变量。此外，预测的规模（如建筑级负荷和汇总级负荷）也会对预测结果产生显著影响。为了帮助预测模型更好地模拟负荷数据，本文提供了一套全面的负荷预测存档，包括针对负荷域的特征工程。与传统的仅关注精度的损失函数不同，我们还提供了一种基于预测误差定制损失函数的方法，并将其集成到我们的预测框架中。基于此，我们在不同级别的负荷数据上进行了广泛的实验，为研究人员比较不同的负荷预测模型提供了参考。

当前挑战

电力负荷数据将受到外部因素（如温度和日历变量）的很大影响，这使得准确模拟负荷动态具有挑战性。因此，探索外部因素对负荷预测的影响一直是该领域的重要研究方向。此外，电力负荷预测模型最重要的关注点在于获得最低的成本，而不是预测精度的最佳值。由于时间序列的多样性，一般的时间序列预测结果很少针对特定任务进行优化。然而，负荷预测结果将主要用于后续的电网调度，这促使我们关注预测与后续决策成本之间的关系。目前，还没有提供大规模的实验结果来证明这一点。因此，我们将在我们的包中提供各种相关的特征工程，并讨论基于温度特征工程对负荷预测模型的影响。除了特征工程之外，另一个区别是电力负荷预测模型最关注的是获得最低的成本，而不是预测精度的最佳值。由于时间序列的多样性，一般的时间序列预测结果很少针对特定任务进行优化。然而，负荷预测结果将主要用于后续的电网调度，这促使我们关注预测与后续决策成本之间的关系。目前，还没有提供大规模的实验结果来证明这一点。因此，我们将在我们的包中提供各种相关的特征工程，并讨论基于温度特征工程对负荷预测模型的影响。

常用场景

经典使用场景

Comprehensive Load Forecasting Archive (CLFA) 数据集主要用于电力系统中的负荷预测，为电网调度等后续任务提供参考，从而带来巨大的经济效益。该数据集包含了针对负荷预测的特定特征工程，帮助预测模型更好地对负荷数据进行建模。同时，该数据集还提供了基于预测误差的自定义损失函数，以集成到预测框架中。CLFA 数据集已经在不同级别的负荷数据上进行了广泛的实验，为研究人员提供了比较不同负荷预测模型的参考。

实际应用

CLFA 数据集的实际应用场景包括电网调度、建筑能源管理和太阳能光伏发电等。在电网调度方面，CLFA 数据集可以提供准确的负荷预测，帮助电网运营商优化电力资源的分配。在建筑能源管理方面，CLFA 数据集可以预测建筑物的能源需求，从而帮助建筑管理者制定节能策略。在太阳能光伏发电方面，CLFA 数据集可以预测光伏发电的产量，从而帮助光伏发电运营商优化发电计划。

衍生相关工作

CLFA 数据集的发布促进了电力负荷预测领域的研究，并衍生出了一系列相关的工作。例如，研究人员可以基于 CLFA 数据集开发新的预测模型，或者改进现有的预测模型。此外，CLFA 数据集还可以用于其他时间序列预测任务，如金融预测、气象预测等。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息，包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

中国车牌识别数据集（7类，33万张）

这是一个高质量、平衡的中国车牌识别数据集，包含了33万张各类中国车牌的图片。数据集经过精心设计，确保了图像质量的优秀和大部分各类车牌类型的平衡分布。这个数据集非常适合用于训练和评估车牌识别模型。

魔搭社区收录

中国裁判文书网

中国裁判文书网是中国最高人民法院设立的官方网站，旨在公开各级法院的裁判文书。该数据集包含了大量的法律文书，如判决书、裁定书、调解书等，涵盖了民事、刑事、行政、知识产权等多个法律领域。

wenshu.court.gov.cn 收录

中国省级灾害统计空间分布数据集(1999-2020年)

该数据集为中国省级灾害统计空间分布数据集，时间为1999-2020年。该数据集包含中国各省自然灾害、地质灾害、地震灾害、森林火灾、森林病虫鼠害、草原灾害六类灾害的详细数据。数据量为206MB，数据格式为excel。

国家地球系统科学数据中心收录

中国空气质量数据集（2014-2020年）

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI，包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台，每日更新。数据集的原始文件为CSV的文本记录，通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心收录