five

Synthetic Power System Datasets

收藏
arXiv2023-03-20 更新2024-06-21 收录
下载链接:
https://github.com/wdvorkin/SyntheticData
下载链接
链接失效反馈
官方服务:
资源简介:
本研究由麻省理工学院开发,旨在通过隐私保护算法生成电力系统优化和机器学习所需的合成数据集。数据集包含1000条经过处理的电力系统数据,主要用于解决最优电力流和风力发电预测等问题。创建过程中,采用差分隐私技术,通过添加噪声保护原始数据的隐私,同时通过后处理凸优化保持数据准确性。该数据集主要应用于电力系统的隐私保护优化计算和机器学习问题,如分布式控制算法和集中式电网解算器。

This research, developed by the Massachusetts Institute of Technology (MIT), aims to generate synthetic datasets required for power system optimization and machine learning via privacy-preserving algorithms. The dataset contains 1,000 processed power system data entries, primarily used to address problems such as optimal power flow and wind power forecasting. During its creation, differential privacy techniques were adopted: noise is injected to safeguard the privacy of the raw data, while post-processing convex optimization is applied to maintain data accuracy. This dataset is mainly applied to privacy-preserving optimization calculations and machine learning tasks in power systems, such as distributed control algorithms and centralized grid solvers.
提供机构:
麻省理工学院(MIT)
创建时间:
2023-03-20
搜集汇总
数据集介绍
main_image_url
构建方式
Synthetic Power System Datasets数据集的构建方式是通过隐私保护算法生成的。这些算法以真实世界的数据集为输入,输出一个经过噪声处理的合成版本,这个合成版本在特定的下游模型或大量此类模型上保留了真实数据的准确性。数据集的构建采用了差分隐私的概念,通过添加隐私保护噪声来实现数据隐私和准确性的量化权衡。构建过程中使用了拉普拉斯和指数机制来控制隐私损失,并通过后处理凸优化来保持数据准确性。具体来说,数据集构建了两个算法:风功率混淆(WPO)算法和传输容量混淆(TCO)算法。
特点
Synthetic Power System Datasets数据集的特点在于其隐私保护和数据准确性之间的平衡。WPO算法能够私有地发布历史风功率测量值,同时保证真实数据的差分隐私,并确保下游回归分析的准确性。TCO算法发布合成线路参数,确保它们在大量OPF模型上保持可行性和成本一致性。此外,TCO算法使用了拉普拉斯和指数机制,与单独使用拉普拉斯机制相比,可以显著减少噪声。数据集的构建考虑了电力系统研究对数据集的需求,同时解决了数据所有者因安全和隐私风险而不愿共享数据的问题。
使用方法
Synthetic Power System Datasets数据集的使用方法主要包括两个算法:WPO算法和TCO算法。使用WPO算法时,首先对真实数据集进行初始化,然后使用拉普拉斯机制计算回归结果,最后通过后处理优化来确保合成数据集的准确性。使用TCO算法时,首先对真实数据集进行初始化,然后使用指数机制找到最坏情况的OPF模型,接着使用拉普拉斯机制估计最坏情况下的OPF成本,最后通过后处理优化来确保合成数据集的可行性。在实际使用中,可以根据需要调整隐私参数和迭代次数,以平衡隐私保护和数据准确性。
背景与挑战
背景概述
电力系统数据集对于优化电力流(OPF)和风力发电预测等问题的解决方案至关重要。然而,由于安全和隐私风险,数据所有者(例如系统运营商)往往不愿意分享数据。为了控制这些风险,研究人员开发了隐私保护算法,用于生成合成优化和机器学习数据集。这些算法以实际数据集为输入,输出其噪声、合成的版本,该版本在特定下游模型或大量此类模型上保留了真实数据的准确性。研究人员利用拉普拉斯和指数机制来控制隐私损失,并使用后处理凸优化来保留数据准确性。这些算法已被应用于生成合成网络参数和风力发电数据。
当前挑战
尽管电力系统研究依赖于真实网络数据集的可用性,但由于安全和隐私问题,发布真实数据具有挑战性。例如,详细的网络数据集可能被用于对SCADA系统进行虚假数据注入攻击,而战略市场参与者可能利用投标记录来最大化利润,以牺牲社会福利为代价。这些担忧促使产生合成数据集,这是一种私人数据集的清洗版本,它近似保留了电力系统问题的数据准确性。此外,构建合成数据集的挑战在于如何在保证隐私的同时,确保合成数据集在下游模型上的准确性。为了解决这个问题,研究人员开发了两种隐私保护数据集生成算法,即风力发电混淆(WPO)算法和传输容量混淆(TCO)算法。这些算法结合了已知的差分隐私机制和合成数据的凸优化,以确保合成数据集的准确性。
常用场景
经典使用场景
在电力系统研究中,优化和机器学习算法通常需要大量的实际网络数据集进行训练和测试。然而,由于安全和隐私的考虑,数据所有者(例如系统运营商)往往不愿意共享数据。为了解决这个问题,研究人员开发了差分隐私算法,用于合成优化和机器学习数据集。这些算法将真实数据作为输入,输出其带噪声的合成版本,同时确保在特定下游模型或整个数据集上保持数据准确性。这些合成数据集可以用于电力系统中的各种问题,例如最优潮流(OPF)和风力发电预测。
解决学术问题
该数据集解决了电力系统中数据共享的难题,即在保护数据隐私的同时,如何生成准确可靠的合成数据集。差分隐私算法通过在数据上添加噪声来控制隐私泄露,并通过后处理凸优化来保持数据的准确性。这些算法不仅可以应用于电力系统中的优化问题,还可以应用于机器学习问题,例如风力发电预测。此外,该数据集还解决了电力系统中数据泄露的风险,例如虚假数据注入攻击和战略市场参与者利用竞价记录来获取利润的问题。
衍生相关工作
该数据集衍生了许多相关的经典工作,例如差分隐私OPF计算、分布式控制算法和集中式求解器等。这些工作不仅在电力系统中得到了应用,还在其他领域也得到了广泛应用,例如医疗保健、社交媒体和网络广告等。此外,该数据集还推动了差分隐私算法的发展,例如Laplace机制和指数机制等。这些算法不仅可以应用于合成数据集的生成,还可以应用于其他数据隐私保护问题,例如数据挖掘和机器学习等。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作