Structurally Complex with Additive paRent causalitY (SCARY) Dataset

Name: Structurally Complex with Additive paRent causalitY (SCARY) Dataset
Creator: 皇家墨尔本理工大学
Published: 2023-04-27 19:38:40
License: 暂无描述

arXiv2023-04-27 更新2024-06-21 收录

下载链接：

https://github.com/JayJayc/SCARY

下载链接

链接失效反馈

官方服务：

资源简介：

SCARY数据集是由皇家墨尔本理工大学的研究者创建的一个新型合成因果数据集，旨在解决现有数据集在复杂性方面的不足。该数据集包含240个子数据集，每个子数据集有2500个样本，涵盖了40种不同的生成配置，每种配置使用三种不同的种子。数据集通过两种不同的数据生成机制来模拟父母节点与子节点之间的因果关系，包括线性和混合因果机制。SCARY数据集特别关注于模拟真实世界中的选择偏差、不忠实数据和混杂因素，为因果发现算法提供了一个更为真实和挑战性的测试平台。该数据集的应用领域主要集中在因果发现算法的评估和比较，以及探索不同因果发现算法在复杂性和因果关系变化下的表现。

The SCARY dataset is a novel synthetic causal dataset developed by researchers from RMIT University (Royal Melbourne Institute of Technology), designed to address the limitations of existing datasets in terms of complexity. This dataset consists of 240 sub-datasets, each containing 2500 samples, and covers 40 distinct generation configurations, with each configuration utilizing three distinct random seeds. It simulates the causal relationships between parent nodes and child nodes through two different data generation mechanisms: linear and mixed causal mechanisms. Specifically, the SCARY dataset focuses on simulating real-world selection bias, unfaithful data, and confounders, thus providing a more realistic and challenging testbed for causal discovery algorithms. The primary application domains of this dataset center on the evaluation and comparison of causal discovery algorithms, as well as exploring the performance of various causal discovery algorithms under conditions of varying complexity and shifts in causal relationships.

提供机构：

皇家墨尔本理工大学

创建时间：

2023-04-27

搜集汇总

数据集介绍

构建方式

在因果推断领域，数据集的构建需模拟现实世界中的复杂因果结构。SCARY数据集通过精心设计的生成器，构建了包含40种不同场景的合成数据，每种场景采用三种随机种子以确保多样性。生成过程基于有向无环图（DAG），根节点数据通过高斯混合模型生成，而子节点数据则应用线性或混合因果机制（如多项式与S型函数）从父节点推导。此外，生成器刻意引入了选择偏差、因果充分性不足以及近似非忠实性等现实数据问题，使数据集能够更真实地反映实际因果关系的复杂性。

特点

SCARY数据集的核心特点在于其高度结构化的复杂性。该数据集包含240个子数据集，涵盖小（10节点）、中（15节点）、大（25节点）及超大（50节点）四种图规模，并按照比例缩放问题类型。数据生成机制分为线性与混合两类，其中混合机制随机组合多种函数类型，避免了算法对单一因果关系的依赖。数据集的Varsortability值约为0.5，表明边际方差与因果结构之间的不一致性，进一步增加了因果发现的挑战性。这些设计使得SCARY能够有效评估算法在近似非忠实性、未观测混杂及选择偏差等现实问题下的稳健性。

使用方法

SCARY数据集为因果发现算法的评估提供了标准化测试平台。研究人员可从GitHub仓库获取数据集，并根据需要选择特定场景或问题组合进行分析。使用时应首先识别数据集的配置信息，包括图规模、因果机制类型及嵌入的问题类别。算法评估可针对不同子数据集进行，以检验其在处理选择偏差、近似非忠实性等复杂情况下的性能。此外，数据集提供的种子信息允许结果复现，而混合机制文件则有助于追踪数据生成过程，从而深化对算法局限性的理解。该数据集适用于因果发现方法的比较研究，尤其适合探索现实因果推断中的挑战。

背景与挑战

背景概述

因果发现作为科学探究的核心任务，在医学、心理学及经济学等领域具有深远影响。2023年，IBM与RMIT大学的研究团队Jarry Chen与Haytham M. Fayek共同构建了Structurally Complex with Additive paRent causalitY (SCARY)数据集，旨在弥补现有因果数据在模拟现实复杂性方面的不足。该数据集聚焦于解决因果推断中普遍存在的选择偏差、非忠实性及混杂效应等难题，通过合成数据生成机制，为算法评估提供了更为贴近真实场景的测试平台。其创新性在于整合了多种因果机制与问题类型，推动了因果发现领域向更高维度的复杂性与实用性迈进。

当前挑战

SCARY数据集致力于应对因果发现领域内算法鲁棒性评估的挑战，特别是在处理非忠实性、因果充分性缺失及选择偏差等复杂数据问题时的表现。构建过程中，研究团队面临多重技术难题：一是如何在合成数据中精准模拟近失败忠实性现象，避免理想化参数设置导致的评估偏差；二是需平衡不同因果机制（如线性与混合函数）的多样性，确保数据既反映现实复杂性又不失可控性；三是维持变量排序能力在0.5左右，以规避方差诱导的因果结构误判，同时确保生成的有向无环图能有效涵盖多节点规模与问题比例的动态组合。

常用场景

经典使用场景

在因果发现领域，真实世界的数据往往伴随着选择偏差、非忠实性和混杂等复杂问题，而现有数据集常难以全面模拟这些挑战。SCARY数据集通过合成数据生成，精心构建了包含40种不同场景的多样化测试环境，每个场景采用三种随机种子以确保可重复性。该数据集最经典的使用场景在于为因果发现算法提供一个高度可控且贴近现实的评估平台，研究者可借此系统检验算法在面临非线性因果机制、近非忠实性条件及未观测混杂因素时的鲁棒性与准确性。

解决学术问题

SCARY数据集致力于解决因果推断研究中长期存在的关键学术难题，特别是针对算法在复杂数据假设失效时的性能评估问题。它通过模拟选择偏差、因果充分性破坏以及近非忠实性等现实数据缺陷，为探索因果发现方法的理论边界提供了实证基础。该数据集的意义在于突破了传统基准数据集的简化局限，推动了因果发现领域向更严谨、更稳健的方法论发展，使研究者能够深入剖析算法在复杂因果结构中的失效模式与改进方向。

衍生相关工作

SCARY数据集的推出催生了一系列聚焦于复杂因果发现的衍生研究。基于其提供的多场景测试框架，学者们开发了针对非忠实性数据的新型检测算法，以及适应选择偏差的因果结构学习改进方法。该数据集与Causal Discovery Toolbox等开源工具的协同使用，进一步促进了因果充分性假设下的图模型比较研究。相关成果已在因果学习顶级会议上形成专题讨论，推动了基于合成数据验证的因果发现方法论体系的发展与标准化。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集