five

Comprehensive Load Forecasting Archive|电力负荷预测数据集|数据集数据集

收藏
arXiv2023-07-14 更新2024-08-06 收录
电力负荷预测
数据集
下载链接:
http://arxiv.org/abs/2307.07191v1
下载链接
链接失效反馈
资源简介:
本研究提供了一个全面的电力负荷预测数据集,包含11个不同来源的数据集,主要来自UCI机器学习数据库、Kaggle数据竞赛平台和全球能源预测竞赛。数据集涵盖了从建筑级到聚合级的负荷数据,以及温度等外部变量,旨在为电力系统的日前调度提供重要参考。数据集的创建过程中,特别关注了温度和日历变量对负荷的影响,并通过特定的特征工程方法来优化预测模型。该数据集的应用领域主要集中在电力负荷预测,特别是为电力系统的经济调度和运营决策提供支持。
提供机构:
阿里巴巴达摩院
创建时间:
2023-07-14
AI搜集汇总
数据集介绍
main_image_url
构建方式
Comprehensive Load Forecasting Archive (CLFA) 数据集的构建方式采取了广泛的数据收集策略,汇集了来自不同来源的11个数据集,涵盖了包括电力系统、建筑能耗、以及受COVID-19影响的电力系统在内的多个领域。这些数据集不仅包含了不同层次(如建筑级和汇总级)的电力负载数据,还包含了可能对电力负载产生重大影响的气象数据,如温度。此外,数据集还采用了不同的预测设置,例如,为电网的日前调度需求而采用的24小时提前预测设置,从而为研究者提供了丰富的数据资源。
特点
CLFA数据集的特点在于其全面性和多样性。首先,它提供了不同层次和类型的电力负载数据,使得研究者能够针对不同的预测场景进行模型评估。其次,数据集包含了丰富的外部变量数据,如温度,这对于建立更准确的预测模型至关重要。此外,CLFA还包含了受COVID-19影响的电力负载数据,这对于评估模型的鲁棒性提供了宝贵的资源。最后,数据集采用了特殊的预测设置,如24小时提前预测,以模拟实际电网调度的需求。
使用方法
使用CLFA数据集的方法包括数据预处理、特征工程、预测模型的选择和训练、后处理以及评估。首先,用户可以使用数据预处理功能,如缺失值填充,以确保数据质量。其次,用户可以根据数据集特点进行特征工程,例如,利用温度和日历变量进行特征转换。然后,用户可以选择合适的预测模型,如基于深度学习或传统机器学习的方法,并进行训练。在得到预测结果后,用户可以使用后处理功能,如排序,以确保预测结果的准确性。最后,用户可以使用多种评估指标,如Pinball Loss和Winkler Score,来评估模型的预测性能。
背景与挑战
背景概述
电力负荷预测在电力行业中具有重要意义,因为它可以为后续任务如电网调度提供参考,从而带来巨大的经济效益。然而,负荷预测与传统的时间序列预测存在许多差异。首先,负荷预测旨在最小化后续任务如电网调度的成本,而不仅仅是追求预测精度。其次,负荷受到许多外部因素的影响,例如温度或日历变量。此外,预测的规模(如建筑级负荷和汇总级负荷)也会对预测结果产生显著影响。为了帮助预测模型更好地模拟负荷数据,本文提供了一套全面的负荷预测存档,包括针对负荷域的特征工程。与传统的仅关注精度的损失函数不同,我们还提供了一种基于预测误差定制损失函数的方法,并将其集成到我们的预测框架中。基于此,我们在不同级别的负荷数据上进行了广泛的实验,为研究人员比较不同的负荷预测模型提供了参考。
当前挑战
电力负荷数据将受到外部因素(如温度和日历变量)的很大影响,这使得准确模拟负荷动态具有挑战性。因此,探索外部因素对负荷预测的影响一直是该领域的重要研究方向。此外,电力负荷预测模型最重要的关注点在于获得最低的成本,而不是预测精度的最佳值。由于时间序列的多样性,一般的时间序列预测结果很少针对特定任务进行优化。然而,负荷预测结果将主要用于后续的电网调度,这促使我们关注预测与后续决策成本之间的关系。目前,还没有提供大规模的实验结果来证明这一点。因此,我们将在我们的包中提供各种相关的特征工程,并讨论基于温度特征工程对负荷预测模型的影响。除了特征工程之外,另一个区别是电力负荷预测模型最关注的是获得最低的成本,而不是预测精度的最佳值。由于时间序列的多样性,一般的时间序列预测结果很少针对特定任务进行优化。然而,负荷预测结果将主要用于后续的电网调度,这促使我们关注预测与后续决策成本之间的关系。目前,还没有提供大规模的实验结果来证明这一点。因此,我们将在我们的包中提供各种相关的特征工程,并讨论基于温度特征工程对负荷预测模型的影响。
常用场景
经典使用场景
Comprehensive Load Forecasting Archive (CLFA) 数据集主要用于电力系统中的负荷预测,为电网调度等后续任务提供参考,从而带来巨大的经济效益。该数据集包含了针对负荷预测的特定特征工程,帮助预测模型更好地对负荷数据进行建模。同时,该数据集还提供了基于预测误差的自定义损失函数,以集成到预测框架中。CLFA 数据集已经在不同级别的负荷数据上进行了广泛的实验,为研究人员提供了比较不同负荷预测模型的参考。
实际应用
CLFA 数据集的实际应用场景包括电网调度、建筑能源管理和太阳能光伏发电等。在电网调度方面,CLFA 数据集可以提供准确的负荷预测,帮助电网运营商优化电力资源的分配。在建筑能源管理方面,CLFA 数据集可以预测建筑物的能源需求,从而帮助建筑管理者制定节能策略。在太阳能光伏发电方面,CLFA 数据集可以预测光伏发电的产量,从而帮助光伏发电运营商优化发电计划。
衍生相关工作
CLFA 数据集的发布促进了电力负荷预测领域的研究,并衍生出了一系列相关的工作。例如,研究人员可以基于 CLFA 数据集开发新的预测模型,或者改进现有的预测模型。此外,CLFA 数据集还可以用于其他时间序列预测任务,如金融预测、气象预测等。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

CliMedBench

CliMedBench是一个大规模的中文医疗大语言模型评估基准,由华东师范大学等机构创建。该数据集包含33,735个问题,涵盖14个核心临床场景,主要来源于顶级三级医院的真实电子健康记录和考试练习。数据集的创建过程包括专家指导的数据选择和多轮质量控制,确保数据的真实性和可靠性。CliMedBench旨在评估和提升医疗大语言模型在临床决策支持、诊断和治疗建议等方面的能力,解决医疗领域中模型性能评估的不足问题。

arXiv 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

Amazon Product Data

该数据集包含亚马逊产品的详细信息,包括产品规格、价格、折扣、客户评价和用户评分等字段。

github 收录

Obstacle-dataset OD

该数据集用于十五种障碍物检测,包含VOC格式和YOLO训练的.txt文件,数据集中的图像来自VOC数据集、COCO数据集、TT100K数据集以及作者团队实地收集的图片。

github 收录

ChinaTravel

ChinaTravel是由南京大学国家重点实验室开发的一个真实世界基准数据集,专门用于评估语言代理在中国旅行规划中的应用。该数据集涵盖了中国10个最受欢迎城市的旅行信息,包括720个航班和5770趟列车,以及3413个景点、4655家餐厅和4124家酒店的详细信息。数据集通过问卷调查收集用户需求,并设计了一个可扩展的领域特定语言来支持自动评估。ChinaTravel旨在解决复杂的真实世界旅行规划问题,特别是在多兴趣点行程安排和用户偏好满足方面,为语言代理在旅行规划中的应用提供了重要的测试平台。

arXiv 收录