CausalRivers

Name: CausalRivers
Creator: 耶拿弗里德里希·席勒大学计算机视觉组
Published: 2025-03-22 02:02:35
License: 暂无描述

arXiv2025-03-22 更新2025-03-26 收录

下载链接：

https://causalrivers.github.io

下载链接

链接失效反馈

官方服务：

资源简介：

CausalRivers是一个关于河流流量的大型野外因果发现基准测试数据集，包含来自东部德国和巴伐利亚州的河流流量数据，时间跨度为2019年至2023年，以15分钟为时间分辨率。数据集基于与八个德国州机构的合作收集，并构建了两个因果真相图，可用于生成数千个子图来对因果发现方法进行基准测试。该数据集有望被应用于时间序列预测、异常检测等领域。

CausalRivers is a large-scale field causal discovery benchmark dataset focused on river flow. It includes river flow data collected from eastern Germany and Bavaria, spanning the period from 2019 to 2023 with a 15-minute temporal resolution. The dataset was gathered in collaboration with eight German state agencies. Two causal ground-truth graphs have been constructed, which can be used to generate thousands of subgraphs for benchmarking causal discovery methods. This dataset holds promising prospects for applications including time series forecasting and anomaly detection.

提供机构：

耶拿弗里德里希·席勒大学计算机视觉组

创建时间：

2025-03-22

搜集汇总

数据集介绍

构建方式

CausalRivers数据集通过整合德国东部和巴伐利亚地区1160个水文监测站的河流流量数据构建而成，时间跨度为2019至2023年，时间分辨率为15分钟。研究团队联合八家州立机构获取原始时序数据，并基于维基百科爬取、遥感影像和多源元数据半自动化构建因果真实图，最终通过人工校验确保拓扑准确性。针对极端降水事件（如易北河洪水），额外采集了42个监测站的密集观测数据以研究分布偏移场景。数据集创新性地提供子图采样策略，可生成包含单汇点、隐藏混杂等特性的数千种因果结构，为算法评估提供丰富场景。

特点

该数据集具有三大核心特征：其一，地理多样性涵盖山地、海岸及城市区域等复杂水文系统，包含水坝、潮汐等特殊拓扑结构；其二，气象混杂因素引入非平稳性和季节性模式，降水事件导致显著分布偏移（如易北河洪水期间流量激增1600m³/s）；其三，因果滞后时间随河流流速动态变化，与固定15分钟采样率形成鲜明对比，有效检验算法对时变因果的识别能力。数据集还包含平均8%的缺失值和未处理的原始噪声，高度还原真实世界复杂性。

使用方法

使用CausalRivers需通过标准化工具包加载时空子集：用户可指定节点数量（3-1000）、地理范围或拓扑特性（如单根节点）生成评估子图。配套提供DWD气象数据接口用于混杂分析，以及三种基线算法（基于互相关的CC、流量大小的RP及其组合）。典型流程包括：1）选择时间分辨率（15分钟-24小时）；2）应用因果发现算法（如PCMCI、VarLiNGAM）；3）对比AUROC/F1指标。特别注意需处理非平稳时段，建议结合Elbe洪水数据验证算法在分布偏移下的鲁棒性。

背景与挑战

背景概述

CausalRivers是迄今为止最大的野外时间序列因果发现基准数据集，由德国耶拿弗里德里希·席勒大学计算机视觉组的Gideon Stein等研究人员于2025年ICLR会议上发布。该数据集聚焦于从观测数据中识别因果关系的挑战性任务，特别针对地球科学、神经科学和经济学等难以进行随机对照试验的领域。CausalRivers包含德国东部地区（666个测量站）和巴伐利亚州（494个测量站）2019至2023年以15分钟为时间分辨率的河流流量数据，并额外提供了易北河洪水事件的特殊分布偏移数据。通过整合多源信息构建的两个因果真实图（巴伐利亚和德国东部），可生成数千个子图以评估不同因果发现方法在多样化场景中的表现。该数据集不仅填补了时间序列因果发现领域缺乏大规模真实基准的空白，其高时空分辨率和复杂地理特征也为时间序列预测、异常检测等相关研究提供了宝贵资源。

当前挑战

CausalRivers面临的挑战主要体现在两个维度：领域问题层面，传统因果发现方法常依赖因果充分性、线性和无隐藏混杂等强假设，而真实河流系统具有动态演化、非线性相互作用及未观测天气混杂等复杂特性，导致现有方法在验证假设被违反时的可靠性存疑；数据构建层面，需解决多源异构测量站的元数据整合、故障传感器识别等数据质量控制问题，以及通过维基百科爬取、遥感影像和人工校验相结合的方式构建超千节点因果真实图的挑战。此外，河流系统的地理异质性（如水坝、潮汐效应等人工/自然干预）、因果延迟的动态性（随水量和流速变化）以及15分钟高采样率带来的计算负担，均为构建具有现实代表性的基准提出了特殊要求。

常用场景

经典使用场景

CausalRivers数据集在因果发现领域具有广泛的应用场景，特别是在时间序列数据的因果结构推断中。该数据集通过提供德国东部和巴伐利亚地区河流流量的高分辨率时间序列数据，为研究人员提供了一个真实的、大规模的基准测试平台。经典使用场景包括评估不同因果发现方法在高维、非线性、非平稳时间序列数据上的性能，以及研究隐藏混杂因素和分布偏移对因果推断的影响。

实际应用

在实际应用方面，CausalRivers数据集的价值体现在多个领域。在水文学领域，该数据集可直接用于研究河流系统的动态相互作用，支持洪水预测和水资源管理。在气候科学中，数据集中的天气混杂因素为研究气候变量与水文系统间的因果关系提供了理想素材。此外，该数据集构建方法为其他领域（如神经科学、经济学）建立类似的因果发现基准提供了范本，促进了跨学科的因果推断研究。

衍生相关工作

基于CausalRivers数据集已衍生出多项重要研究工作。在方法层面，研究者开发了针对高维时间序列的因果发现算法改进，如结合领域适应的神经网络方法。在应用层面，该数据集启发了对因果发现方法在分布偏移下鲁棒性的系统性评估。此外，数据集中的特殊事件（如洪水）催生了关于非平稳环境下因果结构变化检测的新研究。这些工作共同推动了因果发现领域从理论方法到实际应用的转化。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集