CausalRivers

github2025-02-28 更新2025-02-22 收录

下载链接：

https://github.com/CausalRivers/causalrivers

下载链接

链接失效反馈

官方服务：

资源简介：

CausalRivers是迄今为止最大的真实世界时间序列因果发现基准测试。

CausalRivers is the largest real-world time series causal discovery benchmark to date.

创建时间：

2025-02-06

原始信息汇总

CausalRivers 数据集概述

数据集简介

CausalRivers 是一个针对现实世界时间序列的因果关系发现大规模基准测试数据集。

数据集结构

包含三个 NetworkX 图结构
三个元数据表
三个时间序列，格式为 CSV 文件

数据集特点

每个图节点与对应的时间序列共享唯一 ID
元数据表包含节点信息，如河流名称、测量站坐标、海拔等
地面真实节点和边包含额外信息，如颜色、起源、高程变化等

数据质量

节点值和边值包含质量标记，用于表示信息的原始性或估计性

使用说明

提供安装脚本和示例代码，使用 conda 环境
包含使用教程和数据处理示例

维护者

@GideonStein
@Timozen

贡献者

数据由多个德国机构提供，包括 Thüringer Landesamt für Umwelt, Bergbau und Naturschutz 等
所有数据源遵循 Data license Germany

搜集汇总

数据集介绍

构建方式

CausalRivers数据集的构建采用现实世界时间序列数据，包含三个`NetworkX`图结构、三个元数据表和三个CSV格式的时间序列文件。图中每个节点都与相应的时间序列通过唯一ID进行匹配，同时元数据表提供了节点的详细信息。图的结构和边的信息是通过多种策略构建的，并提供了相应的质量标记以确保透明度和可靠性。

特点

该数据集的特点在于它是迄今为止最大的现实世界时间序列因果发现基准，具有丰富的元数据和图结构信息。数据集提供了详细的质量标记，用于评估节点和边的信息质量，并且包含地面真实节点和边的额外信息，有助于研究人员进行因果发现的评估和研究。

使用方法

使用CausalRivers数据集首先需要通过提供的安装脚本安装核心基准测试包，然后可以使用Hydra来组织预处理和方法超参数。数据集的使用包括加载数据、运行基准测试和评分结果。用户可以替换内置的基准策略（VAR）以测试自己的方法，并通过提供的脚本和配置进行网格搜索和结果汇总。

背景与挑战

背景概述

CausalRivers数据集，作为迄今为止最大的现实世界时间序列因果发现基准，其创建旨在推动时间序列数据因果推断领域的研究。该数据集由GideonStein和Timozen等研究人员维护，并于近期公布。它包含了三个网络结构、三个元数据表和三个CSV格式的时间序列文件，为研究人员提供了一个丰富的实验平台，以评估和比较不同的因果发现算法。CausalRivers的发布对于理解复杂时间序列之间的因果关系，以及推动相关领域如环境科学、气候研究等领域的发展具有重要影响力。

当前挑战

CausalRivers数据集面临的挑战主要涉及两个方面：首先，在领域问题上，该数据集需要解决如何准确识别时间序列数据中潜在的因果关系的挑战，这对于理解河流系统中的动态过程至关重要；其次，在构建过程中，数据集的构建涉及多个策略，包括边缘确定和节点信息的质量标记，这些策略的选择和实施对数据集的质量和可靠性提出了挑战。此外，数据集的规模和复杂性也给数据处理和分析带来了额外的挑战。

常用场景

经典使用场景

CausalRivers数据集作为目前最大的真实世界时间序列因果发现基准，其经典使用场景在于为研究人员提供了一个广泛且多样化的时间序列数据集，以评估和比较不同因果发现算法的性能。通过该数据集，研究人员可以在接近现实世界复杂性的条件下，对算法进行基准测试，从而推动因果推断领域的发展。

解决学术问题

该数据集解决了学术研究中缺乏大规模、高质量真实世界时间序列数据的问题，为因果发现算法提供了一个可靠的测试平台。它使得研究人员能够在具有挑战性的环境中评估算法的鲁棒性和泛化能力，进而推动了对因果关系的理解和发现技术的研究。

衍生相关工作

CausalRivers数据集的发布促进了相关领域的研究，衍生出了一系列经典工作，包括但不限于改进因果发现算法、提出新的评价指标、以及针对特定应用场景的定制化因果推断方法，这些研究进一步扩展了该数据集的应用范围和影响力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集