TimeGraph
收藏arXiv2025-06-02 更新2025-06-05 收录
下载链接:
https://github.com/hferdous/TimeGraph
下载链接
链接失效反馈官方服务:
资源简介:
TimeGraph是一个合成的时间序列基准数据集,旨在为鲁棒的时间序列因果发现提供可靠的基准数据集。该数据集系统地结合了线性和非线性依赖关系,并模拟了关键的时间特征,如趋势、季节效应和异构噪声模式。每个数据集都附带一个完全指定的因果图,具有不同的密度和多样的噪声分布,并提供两种版本:一种包括未观察到的混杂因素,一种不包括。TimeGraph为现实世界复杂性提供了广泛的覆盖,同时保持了方法论的中立性,并通过系统评估了最先进的因果发现算法,包括PCMCI+、LPCMCI和FGES,以证明其效用。
TimeGraph is a synthetic time series benchmark dataset developed to serve as a reliable benchmark for robust time series causal discovery. This dataset systematically combines linear and nonlinear dependencies, and simulates key temporal characteristics such as trends, seasonal effects, and heterogeneous noise patterns. Each dataset within the TimeGraph collection is paired with a fully specified causal graph with varying densities and diverse noise distributions, and is available in two variants: one including unobserved confounders and the other excluding them. TimeGraph covers a broad spectrum of real-world complexities while remaining methodologically neutral, and its utility is validated via a systematic evaluation of state-of-the-art causal discovery algorithms including PCMCI+, LPCMCI, and FGES.
提供机构:
马里兰大学巴尔的摩县分校
创建时间:
2025-06-02
原始信息汇总
TimeGraph 数据集概述
基本信息
- 数据集名称: TimeGraph
- 类型: 合成时间序列因果发现基准数据集
- 用途: 评估和比较时间序列因果发现算法
- 相关论文: KDD 2025 论文《TimeGraph: Synthetic Benchmark Datasets for Robust Time-Series Causal Discovery》
主要特点
- 因果结构多样性: 支持线性和非线性因果关系
- 混杂因素: 包含影响多个观测变量的潜在变量
- 噪声分布: 高斯分布、学生t分布和拉普拉斯分布
- 采样模式: 规则采样和不规则采样
- 趋势和季节性: 可调整强度的确定性成分
- 缺失数据:
- MCAR(随机缺失)
- 块缺失(类似传感器故障)
- 混合噪声: 高斯和拉普拉斯噪声混合
- 输出完整性: 时间序列(含/不含缺失值)、因果图、可视化图和真实模型描述
数据集生成
生成器类型
- 线性时间序列生成器
- 非线性时间序列生成器
- 混杂时间序列生成器
- 不规则采样时间序列生成器
- 块缺失非线性生成器
- 混合缺失非线性生成器
通用参数
n_points: 时间步数n_vars: 变量数max_lag: 因果滞后noise_type: 噪声类型noise_params: 噪声参数random_state: 随机种子
预生成数据集
- 位于
datasets/目录下 - 按生成器ID组织(如
a1,a1c,b1,c1c等) - 包含时间序列文件、因果图和结构描述
输出结构
bash /output/linear_ts_n1000_vars4_lag2_gaussian.csv /output/linear_causal_graph_n1000_vars4_lag2_gaussian.png /output/linear_structural_eq.txt
许可信息
- 代码: MIT License
- 数据集: CC BY 4.0 License
引用方式
bibtex @inproceedings{Ferdous2025TimeGraph, author = {Muhammad Hasan Ferdous and Emam Hossain and Md Osman Gani}, title = {{TimeGraph}: Synthetic Benchmark Datasets for Robust Time-Series Causal Discovery}, booktitle = {Proceedings of the 31st ACM SIGKDD Conference on Knowledge Discovery and Data Mining V.2 (KDD 25)}, year = {2025}, publisher = {ACM}, doi = {10.1145/3711896.3737439} }
搜集汇总
数据集介绍

构建方式
TimeGraph数据集通过系统整合线性与非线性依赖关系,构建了一套全面的合成时间序列基准数据集。其生成过程模拟了真实世界数据的关键时间特性,如趋势、季节性效应和异质性噪声模式。每个数据集均附带一个完全指定的因果图,包含不同密度和多样化的噪声分布,并提供了包含未观测混杂因素和不包含混杂因素的两个版本。数据生成采用结构方程模型(SEM),通过多项式变换和三角函数引入非线性依赖,同时结合指数等待时间模型模拟不规则采样间隔,从而覆盖了从简单线性到复杂非线性场景的全方位测试需求。
特点
TimeGraph数据集的核心特点在于其高度可控的复杂性和真实性并存的设计理念。通过引入趋势成分(线性/非线性)、季节性波动(正弦/余弦函数)、混合噪声分布(高斯/拉普拉斯/学生t分布)以及结构化缺失机制(MCAR/块缺失),该数据集精准模拟了经济、气候等领域中常见的时间序列特性。特别地,其包含潜在混杂因素的变体版本,为评估因果发现算法在存在未观测变量时的鲁棒性提供了独特测试平台。不同样本量(500-5000)和最大滞后阶数(2-4)的系统配置,进一步增强了数据集在可扩展性研究方面的价值。
使用方法
使用TimeGraph数据集时,研究者应根据具体评估目标选择相应变体:线性基础版本(A1系列)适合算法基准测试,而非线性含趋势版本(C1系列)则专为检验复杂时间模式下的因果推理能力设计。建议采用标准化评估指标(TPR/FDR/SHD)进行性能量化,并对比算法在有无混杂因素版本中的表现差异。数据集配套的生成脚本支持参数化定制,包括噪声类型、采样规则和缺失机制等关键变量的调整。为保障结果可复现,所有实验配置(如最大滞后阶数、混杂因素强度)需完整记录,推荐使用提供的Tigramite可视化工具进行因果图与时间序列的协同分析。
背景与挑战
背景概述
TimeGraph是由马里兰大学巴尔的摩分校Causal AI Lab的研究团队于2025年提出的合成时间序列基准数据集,旨在解决时间序列因果发现领域缺乏具有已知真实因果结构的基准数据的问题。该数据集由Muhammad Hasan Ferdous等人开发,通过系统整合趋势、季节性效应和异质噪声等关键时间特性,为评估因果发现算法提供了标准化测试环境。作为首个同时建模线性/非线性依赖关系并支持潜在混杂因素的时序因果基准,TimeGraph填补了传统合成数据忽略现实世界动态特性的空白,推动了经济学、气候科学等跨领域因果推理方法的发展。
当前挑战
TimeGraph针对两大核心挑战展开:其一,传统因果发现算法在非平稳性、不规则采样等现实时序特性下性能急剧下降,该数据集通过模拟趋势/季节性波动、缺失数据机制等复杂场景,暴露出算法在非线性因果识别中的局限性;其二,数据构建过程中需平衡真实性与可控性,团队创新性地采用混合噪声分布和结构化缺失模式生成技术,解决了潜在混杂因素与观测变量耦合建模的难题,同时确保所有数据均附带可验证的因果图结构。
常用场景
经典使用场景
在时间序列因果发现领域,TimeGraph数据集通过模拟真实世界中的趋势性、季节性、不规则采样间隔以及未观测混杂因素等复杂特性,为算法评估提供了标准化测试平台。其线性与非线性依赖关系的系统整合,尤其适用于验证PCMCI+、LPCMCI等先进算法在非平稳数据下的因果结构还原能力,例如在气候科学中分析温室气体排放与气温变化的滞后效应。
解决学术问题
该数据集有效解决了时间序列因果发现中三大核心难题:一是通过预设真实因果图结构填补了验证性基准数据的空白;二是模拟非平稳性、混杂变量等现实复杂性,突破了传统合成数据线性假设的局限;三是提供包含/不包含未观测混杂变量的双版本设计,为评估算法抗干扰能力建立量化标准。这种设计使得研究者能精确量化算法在趋势识别、季节性分解等任务中的性能衰减。
衍生相关工作
基于TimeGraph的基准测试催生了多项创新研究:CDANS算法针对其非平稳数据特性改进了格兰杰因果检验;CausalTime利用该数据集验证了神经网络在混杂变量下的因果表征学习能力;在北极海冰预测研究中,研究者结合TimeGraph的滞后依赖模板开发了混合因果-深度学习框架。这些衍生工作显著推进了动态系统因果建模的方法论前沿。
以上内容由遇见数据集搜集并总结生成



