five

CausalDynamics

收藏
arXiv2025-05-22 更新2025-05-24 收录
下载链接:
https://huggingface.co/datasets/kausable/CausalDynamics
下载链接
链接失效反馈
资源简介:
CausalDynamics是一个大规模的基准测试和可扩展的数据生成框架,旨在促进动态因果模型的结构发现。该数据集包含来自数千个耦合的普通和随机微分方程的真实因果图,以及两个理想化的气候模型。数据集用于评估最新的因果发现算法在具有噪声、混杂和滞后动态的系统上的性能。CausalDynamics提供了一个即插即用的构建自己的耦合工作流程,使用户能够构建物理系统的层次结构。该框架旨在促进鲁棒的因果发现算法的开发,这些算法广泛应用于各个领域,同时解决其独特的挑战。
提供机构:
哥伦比亚大学
创建时间:
2025-05-22
原始信息汇总

CausalDynamics 数据集概述

基本信息

  • 名称: CausalDynamics
  • 许可证: MIT
  • 主页: http://kausable.github.io/CausalDynamics
  • 数据集地址: https://huggingface.co/datasets/kausable/CausalDynamics
  • GitHub仓库: https://github.com/kausable/CausalDynamics

数据集特点

  1. 大规模基准测试: 在数千个难度递增的图挑战上系统评估最先进的因果发现算法。
  2. 可定制数据生成: 可扩展、用户友好地生成日益复杂的耦合常微分和随机微分方程系统。
  3. 多样化挑战: 从简单混沌系统到动态系统的模块化因果耦合,包括可选噪声、混杂、时间滞后甚至气候模型动力学。

数据集内容

  • 数据来源: 来自数千个耦合常微分和随机微分方程的真实因果图,以及两个理想化的气候模型。
  • 评估内容: 在具有噪声、混杂和滞后动态的系统上对最先进的因果发现算法进行图重建的全面评估。

安装与使用

安装方式

  1. 使用pip: bash pip install causaldynamics

    • 要求Python版本3.10
  2. 使用conda: shell conda create --name venv python=3.10 conda activate venv pip install causaldynamics

  3. 使用pdm: shell git clone https://github.com/kausable/CausalDynamics.git cd CausalDynamics pdm install

数据获取

  • 下载预处理数据集: bash wget https://huggingface.co/datasets/kausable/CausalDynamics/resolve/main/process_causaldynamics.py python process_causaldynamics.py

快速开始

基准测试

AI搜集汇总
数据集介绍
main_image_url
构建方式
CausalDynamics数据集的构建采用了分层框架设计,通过耦合常微分方程(ODEs)和随机微分方程(SDEs)生成真实因果图结构。第一层级包含59个三维混沌动力系统的真实因果图;第二层级通过改进的GNR算法将确定性/随机动力系统与周期函数耦合,构建了4745个复杂图结构;第三层级基于两个理想化气候模型(ENSO和MAOOAM)生成伪真实物理系统数据。数据集采用模块化工作流,支持用户自定义噪声、未观测混杂、时滞等因果挑战,并通过标准化消除变量排序伪影。
特点
该数据集作为当前最大的动态因果模型基准测试集,包含5342个因果图及超过5000万预处理样本,其核心特点包括:1)层次化复杂性设计,从简单混沌系统延伸至气候模型;2)引入真实系统中常见的噪声、混杂、时滞等挑战;3)提供可扩展的数据生成框架,支持构建包含共同因果机制的物理系统层次结构;4)所有数据均附带真实因果图作为验证基准,特别适用于评估高维非线性场景下的因果发现算法。
使用方法
使用CausalDynamics时,可通过Python包实现端到端工作流:1)调用solve_system函数生成动力系统轨迹数据;2)利用create_scm构建结构因果模型并模拟耦合系统;3)通过标准化选项控制变量排序伪影。评估阶段需将算法输出的预测因果图与真实邻接矩阵对比,采用AUROC和AUPRC指标衡量性能。数据集支持对Granger因果、神经网络等七类因果发现算法的基准测试,特别推荐在存在时滞效应或高维耦合的场景下使用拓扑学方法(如TSCI)。
背景与挑战
背景概述
CausalDynamics是由kausable GmbH与哥伦比亚大学联合研发的大规模基准数据集,专注于动态因果模型的结构发现研究。该数据集于2025年5月通过arXiv平台首次发布,核心研究团队包括Benjamin Herdeanu、Juan Nathaniel等跨学科专家。数据集通过整合5300多个耦合常微分方程和随机微分方程的因果图,以及两个理想化气候模型,为非线性、高维动态系统中的因果推断提供了标准化评估框架。其创新性体现在构建了层级化的物理系统耦合工作流,显著推进了气候科学、生物动力学等领域的因果发现算法研发。
当前挑战
该数据集主要解决动态系统中因果结构发现的三大核心挑战:1) 非线性时滞系统的因果图重构难题,特别是在存在未观测混杂变量和噪声干扰时;2) 构建过程中需处理随机混沌系统的复杂动力学特性,如通过MLP耦合数千个微分方程时面临的数值稳定性问题;3) 基准验证环节要求算法同时应对时间滞后效应、变量排序伪影(varsortability)等现实系统中普遍存在的干扰因素。此外,气候模型的集成还涉及跨尺度耦合带来的维度灾难挑战。
常用场景
经典使用场景
在非线性动力系统的因果发现领域,CausalDynamics数据集通过整合数千个耦合的常微分方程和随机微分方程,为研究者提供了一个标准化的评估平台。该数据集特别适用于验证算法在存在噪声、混杂因素和时间延迟等复杂场景下的性能表现。
衍生相关工作
基于CausalDynamics数据集已衍生出多项重要研究,包括改进的Granger因果检验方法(如Neural GC)、处理高维时间序列的CUTS+算法,以及结合拓扑理论的TSCI方法。这些工作显著推动了动态系统中因果发现的理论创新,并为PCMCI+等经典算法提供了新的性能基准。
数据集最近研究
最新研究方向
近年来,CausalDynamics数据集在动态因果模型的结构发现领域引起了广泛关注。该数据集通过整合数千个耦合的常微分方程和随机微分方程,以及两个理想化的气候模型,为研究非线性、高维和含噪声的动态系统提供了全面的基准测试平台。特别是在气候科学和复杂系统建模领域,CausalDynamics被用于评估和开发新的因果发现算法,以应对现实世界中存在的未观测混杂因素和时间滞后效应等挑战。这一数据集的推出,不仅填补了现有基准在动态系统评估上的空白,还为跨领域应用如气候预测和生态系统建模提供了重要工具。
相关研究论文
  • 1
    CausalDynamics: A large-scale benchmark for structural discovery of dynamical causal models哥伦比亚大学 · 2025年
以上内容由AI搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作