five

DiTEC-WDN

收藏
arXiv2025-03-24 更新2025-03-28 收录
下载链接:
http://arxiv.org/abs/2503.17167v2
下载链接
链接失效反馈
官方服务:
资源简介:
DiTEC-WDN是由荷兰格罗宁根大学伯努利学院和阿姆斯特丹大学信息学院共同创建的大型水分布网络液压场景数据集,包含36,000个独特的模拟场景。该数据集通过自动化管道优化关键参数,进行大规模模拟,并记录了在标准条件下通过规则验证和事后分析得到的离散、合成的但水力现实的网络状态。DiTEC-WDN总共生成了2.28亿个基于图的 states,能够支持各种机器学习任务,包括图级、节点级和链接级回归以及时间序列预测。

DiTEC-WDN is a large-scale hydraulic scenario dataset for water distribution networks, co-created by the Bernoulli Institute of the University of Groningen in the Netherlands and the School of Informatics of the University of Amsterdam. It contains 36,000 unique simulation scenarios. This dataset conducts large-scale simulations by automatically optimizing key pipeline parameters, and records discrete, synthetic yet hydraulically realistic network states derived from rule-based validation and post-hoc analysis under standard conditions. DiTEC-WDN has generated a total of 228 million graph-based states, which can support a wide range of machine learning tasks including graph-level, node-level, link-level regression and time series forecasting.
提供机构:
荷兰格罗宁根大学伯努利学院, 荷兰阿姆斯特丹大学信息学院
创建时间:
2025-03-21
搜集汇总
数据集介绍
main_image_url
构建方式
DiTEC-WDN数据集的构建采用了高度自动化的流程,基于36个公开可用的供水网络(WDN)模型。通过EPANET和WNTR等水力模拟工具,研究人员对关键参数(如压力、流速和需求模式)进行了优化,并进行了大规模模拟。每个网络生成了1,000个独特场景,涵盖短期(24小时)和长期(1年)模拟,总计产生了2.28亿个基于图的状态快照。模拟过程中,通过规则验证和后验分析确保了数据的合成性和水力真实性。
特点
DiTEC-WDN数据集以其规模大、多样性高和合成性为显著特点。数据集包含36,000个独特场景,覆盖多种水力条件,能够支持图级、节点级和链路级回归以及时间序列预测等多种机器学习任务。数据集的合成性质避免了真实数据共享中的隐私和安全问题,同时通过自动需求生成器(ADG)为每个节点生成独特的需求模式,显著提升了数据的多样性和实用性。此外,数据集还包含了静态、动态和曲线参数,为研究提供了全面的水力状态信息。
使用方法
DiTEC-WDN数据集的使用方法灵活多样,适用于多种研究场景。研究人员可以通过加载.parquet文件访问特定参数或网络子集,利用数据集进行机器学习模型的训练和验证。数据集支持图神经网络、时间序列分析等任务,并可结合EPANET工具进行水力模拟的扩展研究。使用前需进行简单的预处理,如跳过特定节点或链接。数据集的元数据(如拓扑结构和节点信息)存储在Markdown文件中,便于快速了解网络结构。此外,数据集还提供了优化和生成工具的代码,支持用户根据需求生成定制化场景。
背景与挑战
背景概述
DiTEC-WDN数据集由荷兰格罗宁根大学的Huy Truong和Andrés Tello等研究人员于2025年创建,旨在解决水资源分配网络(WDN)研究中真实数据稀缺的问题。该数据集基于36个公开可用的WDN模型,通过自动化流程生成了36,000个独特的液压场景模拟,包含2.28亿个基于图的网络状态快照。其核心研究问题聚焦于如何在不暴露敏感信息的前提下,为机器学习模型提供大规模、多样化的训练数据,以支持图级、节点级和链路级回归以及时间序列预测等任务。作为首个覆盖多网络、多时长的大规模WDN基准数据集,DiTEC-WDN通过合成数据技术突破了隐私限制,为智慧水务领域的算法研发提供了重要基础设施。
当前挑战
该数据集主要面临双重挑战:在领域问题层面,传统WDN研究受限于真实数据的隐私性和碎片化,难以满足数据驱动方法对样本量和多样性的需求,尤其在水力参数(如节点需求模式)的建模精度与泛化能力之间存在显著矛盾;在构建技术层面,需解决高维参数空间优化(如压力、流量等38个水力参数)与水力规则验证的平衡问题,其中粒子群优化算法需克服长周期模拟(1年时长)的收敛难题,而自动需求生成算法(ADG)需通过社区检测和傅里叶时序建模来保证消费模式的时空差异性。此外,数据集还需处理原始配置文件的异构性(如单位不统一)和模拟异常(如负压)的实时检测等工程挑战。
常用场景
经典使用场景
DiTEC-WDN数据集在水利工程与机器学习交叉领域具有重要应用价值,其核心使用场景聚焦于供水管网(WDN)的数字化建模与仿真。该数据集通过228百万个基于图的网络状态快照,为图级别、节点级别和链路级别的回归任务提供了标准化基准,尤其适用于长短期时间序列预测(24小时至1年周期)。在学术研究中,常被用于验证图神经网络在压力估计、流量预测等任务中的表现,其合成数据特性有效规避了真实水务数据共享的隐私限制。
解决学术问题
该数据集解决了水务领域三大核心学术问题:其一,填补了真实管网数据因隐私保护导致的稀缺性缺口,通过36个公开管网生成的36,000种仿真场景,为数据驱动方法提供了充足样本;其二,创新性地采用自动需求生成器(ADG)技术,解决了传统研究中节点用水模式重复使用导致的模型泛化性不足问题;其三,通过粒子群优化算法校准水力参数,确保了合成数据在压力、流量等关键指标上的物理合理性,为混合建模(物理模型+深度学习)提供了验证基础。
衍生相关工作
该数据集已催生多项标志性研究:Truong等人(2024)提出基于GNN的压力估计框架,在DiTEC-WDN上实现比传统EPANET仿真快400倍的推理速度;Kerimov等(2024)开发的边缘图神经网络元模型,利用数据集跨管网迁移特性显著提升小样本学习效果。此外,其基准测试功能推动了BattLeDIM等国际算法竞赛,促进了管网异常检测技术的标准化发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作