five

CausalTime

收藏
arXiv2023-10-03 更新2024-07-24 收录
下载链接:
https://www.causaltime.cc/
下载链接
链接失效反馈
官方服务:
资源简介:
CausalTime数据集是由清华大学自动化系的研究团队开发的,旨在为时间序列因果发现算法提供一个真实的测试平台。该数据集包含三个子集:空气质量指数(AQI)、交通流量和医疗记录,每个子集都基于真实数据生成,并附带真实的因果图。AQI子集包含中国多个城市的PM2.5污染指数数据,交通子集来自旧金山湾区,医疗子集则来自MIMIC-4数据库。数据集的生成过程涉及深度神经网络和归一化流技术,确保数据的真实性和复杂性,适用于评估和改进时间序列因果发现算法。

The CausalTime Dataset was developed by the research team from the Department of Automation, Tsinghua University, aiming to provide a realistic testbed for time-series causal discovery algorithms. This dataset includes three subsets: Air Quality Index (AQI), traffic flow, and medical records. Each subset is generated based on real-world data and is accompanied by a ground-truth causal graph. The AQI subset contains PM2.5 pollution index data from multiple cities in China; the traffic subset is sourced from the San Francisco Bay Area; the medical subset is derived from the MIMIC-4 database. The dataset generation process involves deep neural networks and normalizing flow techniques, ensuring the authenticity and complexity of the data, making it suitable for evaluating and improving time-series causal discovery algorithms.
提供机构:
清华大学自动化系
创建时间:
2023-10-03
搜集汇总
数据集介绍
main_image_url
构建方式
CausalTime 数据集的构建方式基于现实场景中的真实观测数据,旨在生成高度逼真的时间序列数据以及相应的真实因果图。该过程首先利用深度神经网络和归一化流对多变量时间序列数据的动态过程进行精确拟合。其次,通过在神经网络上进行重要性分析或利用先验知识,提取假设的因果图。然后,将因果模型分解为因果项、残差项和噪声项,以获得真实因果图。最后,利用拟合的网络和推导出的因果图,生成与原始数据相似的时间序列数据,用于算法评估。
特点
CausalTime 数据集的特点在于其高度逼真性、具有真实因果图以及通用性。该数据集通过模拟现实场景中的动态过程,保留了原始时间序列数据的特征,使得生成的数据与真实数据具有较高的相似度。此外,CausalTime 数据集还包含了真实因果图,为时间序列因果发现算法的性能评估提供了基准。CausalTime 数据集适用于各个领域,如气象、交通和医疗等,为时间序列因果发现算法的评价提供了新的选择。
使用方法
CausalTime 数据集的使用方法包括以下几个方面:首先,用户可以从网站 www.causaltime.cc 获取数据集。其次,用户可以使用数据集中的时间序列数据对时间序列因果发现算法进行评估。最后,用户可以利用数据集中的真实因果图对算法的发现结果进行验证。CausalTime 数据集为时间序列因果发现算法的评价提供了新的选择,有助于推动该领域的研究和应用。
背景与挑战
背景概述
时序因果发现(TSCD)是机器学习中的基础问题,旨在从时序数据中推断因果结构。然而,现有的合成数据集无法准确评估算法在真实数据上的性能。为了解决这一问题,清华大学自动化系的研究团队提出了CausalTime数据集,旨在生成高度逼真的时序数据,并附带真实因果图,以便进行定量性能评估。该数据集的创建始于特定场景中的真实观察数据,并通过深度神经网络和正则化流准确捕捉现实动态,然后提取假设因果图,并通过将因果模型分解为因果项、残差项和噪声项来获得真实因果图,最终生成相应的通用时序数据,用于算法评估。CausalTime数据集的提出为评估TSCD算法在真实应用中的性能提供了一个可行的解决方案,并可以推广到广泛的领域。
当前挑战
CausalTime数据集面临的主要挑战包括:1) 构建过程中需要从真实观察数据中准确捕捉现实动态,这需要深度神经网络和正则化流等复杂模型;2) 提取假设因果图,这需要基于神经网络的重要性分析或利用先验知识;3) 生成真实因果图,需要将因果模型分解为因果项、残差项和噪声项,并确保分解后的模型能够自然地生成与原始数据观察相匹配的时序数据。此外,现有的TSCD算法在CausalTime数据集上的表现不如在合成数据集上的表现,这表明现有的合成数据集无法准确评估算法在真实数据上的性能,需要构建新的基准数据集来推动该领域的发展。
常用场景
经典使用场景
CausalTime 数据集主要用于时间序列因果发现(TSCD)算法的性能评估。该数据集通过生成高度逼真的时间序列数据,并附带真实的因果图,为 TSCD 算法的评估提供了可靠的基础。CausalTime 的经典使用场景包括但不限于:评估现有 TSCD 算法的性能,比较不同算法之间的优劣,以及为新算法的设计和开发提供参考。
解决学术问题
CausalTime 数据集解决了 TSCD 领域中现有的基准数据集无法真实反映现实世界数据的问题。现有的数据集要么过于简化,缺乏现实世界的复杂性,要么缺乏真实的因果图,导致评估结果与实际应用存在偏差。CausalTime 通过生成高度逼真的时间序列数据和真实的因果图,为 TSCD 算法的评估提供了更可靠的基础,有助于推动 TSCD 算法的实际应用和发展。
衍生相关工作
CausalTime 数据集的提出推动了 TSCD 领域的研究进展,并衍生了一系列相关工作。例如,基于 CausalTime 数据集,研究人员可以开发新的 TSCD 算法,并将其应用于实际问题中;此外,研究人员还可以利用 CausalTime 数据集对现有的 TSCD 算法进行改进,以提高其性能和鲁棒性。CausalTime 数据集的提出为 TSCD 领域的研究提供了新的思路和方向,有助于推动 TSCD 领域的进一步发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作