five

DiTEC-WDN|水力网络数据集|机器学习数据集

收藏
arXiv2025-03-21 更新2025-03-25 收录
水力网络
机器学习
下载链接:
https://huggingface.co/datasets/rugds/ditec-wdn
下载链接
链接失效反馈
资源简介:
DiTEC-WDN是一个大规模的水力情景数据集,由荷兰格罗宁根大学伯努利学院和阿姆斯特丹大学信息学院共同创建。该数据集包含36,000个独特的模拟场景,覆盖短期(24小时)和长期(1年)周期。通过自动化的管道优化关键参数,生成228百万个基于规则验证和事后分析的离散、合成但水力现实的网络状态。该数据集支持多种机器学习任务,如图级、节点级和链接级回归以及时间序列预测,为水 distribution 网络领域的研究提供了一个大型基准数据集。
提供机构:
荷兰格罗宁根大学伯努利学院,荷兰阿姆斯特丹大学信息学院
创建时间:
2025-03-21
AI搜集汇总
数据集介绍
main_image_url
构建方式
DiTEC-WDN数据集通过自动化流程构建,基于36个公开可用的供水网络(WDN)模型,采用EPANET和WNTR物理仿真工具生成合成数据。该流程优化关键水力参数(如压力、流量和需求模式),并通过规则验证和后分析确保生成的离散状态具有水力现实性。数据集包含短期(24小时)和长期(1年)模拟场景,总计生成2.28亿个基于图的状态快照,覆盖多种水力条件。
特点
DiTEC-WDN数据集以其规模大、多样性高和合成数据的隐私安全性著称。数据集包含36,000个独特场景,每个场景均具有独立的节点需求模式,避免了现有数据集中需求模式重复使用的问题。通过自动需求生成算法(ADG)和社区检测技术,数据集模拟了真实世界中的家庭和商业用水行为差异,并引入极端需求和零需求节点以增强数据多样性。此外,数据集支持图级、节点级和链路级回归以及时间序列预测等多种机器学习任务。
使用方法
DiTEC-WDN数据集以压缩的.parquet文件格式提供,支持高效读取和处理。用户可通过Hugging Face平台访问数据,并利用多核处理能力进行大规模分析。数据集适用于训练数据驱动的深度学习模型,如替代建模、状态估计和需求预测。用户需注意,数据集未包含异常情况(如泄漏)和流向信息,但可通过转换输入参数为.INP文件并重新仿真来补充。数据加载时需预处理跳过特定节点,并参考元数据中的邻接表分析图拓扑结构。
背景与挑战
背景概述
DiTEC-WDN是由荷兰格罗宁根大学Bernoulli研究所的Huy Truong和Andrés Tello等人于2025年提出的一个大规模水力场景数据集,旨在解决水资源分配网络(WDN)研究中真实数据稀缺的问题。该数据集包含36,000个独特场景,模拟了36个不同水网在短期(24小时)和长期(1年)内的水力状态,生成了2.28亿个基于图的网络状态快照。DiTEC-WDN通过自动化流程优化关键参数(如压力、流量和需求模式),并利用规则验证和后验分析生成离散但水力真实的合成数据。这一数据集支持多种机器学习任务,如图级、节点级和链接级回归以及时间序列预测,为水资源领域的研究提供了重要的基准数据。
当前挑战
DiTEC-WDN面临的挑战主要包括两方面:领域问题的挑战和构建过程的挑战。在领域问题方面,水资源分配网络的复杂性和动态性使得数据驱动的机器学习方法难以直接应用,尤其是真实数据的隐私限制导致数据共享困难。此外,节点需求模式的稀缺性和重复使用问题进一步限制了模型的鲁棒性和多样性。在构建过程中,数据生成涉及高维参数空间的优化,如节点高程、管道直径等参数的采样策略和范围确定,这需要通过改进的粒子群优化(PSO)算法解决。同时,确保生成数据的真实性和水力稳定性也是一大挑战,需通过严格的规则验证和统计指标(如四分位距)来保证数据的多样性和实用性。
常用场景
经典使用场景
在水利工程与机器学习交叉领域,DiTEC-WDN数据集通过构建36个供水网络的22.8亿个水力状态快照,为图神经网络、时间序列预测等任务提供了标准化基准。其多尺度模拟特性(24小时短期与1年长期)特别适用于研究供水系统在昼夜周期和季节性变化下的动态行为,例如通过节点级回归分析预测管网压力波动,或基于链路级流量数据优化泵站调度策略。
解决学术问题
该数据集有效解决了供水网络研究中真实数据稀缺的瓶颈问题,其合成的多样化水力场景(涵盖压力、流量、需求模式等38个参数)打破了传统研究中因隐私限制导致的数据同质化困局。通过自动生成的独特节点需求模式,克服了既有数据集(如LeakDB)中模式重复使用导致的模型过拟合问题,为数据驱动的水力模型校准、不确定性量化等前沿课题提供了可靠验证平台。
衍生相关工作
基于该数据集衍生的经典工作包括Truong等人开发的图神经网络压力估计模型(Water Resources Research 2024),以及Kerimov提出的边缘图神经网络元模型(Water Research 2024)。其标准化格式还催生了BattLeDIM等国际竞赛,推动了泄漏检测算法的横向比较。数据集构建方法中的水力参数优化策略(HSPO)更被拓展应用于配电网等关键基础设施建模领域。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Amazon Reviews 2023

该数据集包含用户评论,如评分、评论文本、有用投票等,以及商品元数据,如产品描述、定价、图片等。数据集比以前的版本大245.2%,包含571.54M条评论,并具有更丰富的描述性商品特征和细粒度的时间戳。

github 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)

OpenDataLab 收录

网易云音乐数据集

该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息,数据通过爬虫技术获取并整理成CSV格式,用于音乐数据挖掘和推荐系统构建。

github 收录

flames-and-smoke-datasets

该仓库总结了多个公开的火焰和烟雾数据集,包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述,包括数据来源、图像数量、标注信息等。

github 收录

YOLO-dataset

该数据集用于训练YOLO模型,包括分类、检测和姿态识别模型。目前支持v8版本,未来计划支持更多版本。

github 收录