five

causalAssembly

收藏
arXiv2024-02-15 更新2024-06-21 收录
下载链接:
https://github.com/boschresearch/causalAssembly
下载链接
链接失效反馈
官方服务:
资源简介:
causalAssembly是由慕尼黑工业大学和Robert Bosch GmbH合作开发的一个半合成数据生成工具,用于评估因果发现方法。该数据集基于一个复杂的真实世界数据集,该数据集包含在制造环境中的装配线上的测量数据。通过详细研究装配线物理过程的基础,研究人员建立了一组部分真实的因果关系。为了解决潜在的混杂因素和隐私问题,使用分布随机森林来估计和表示由真实因果图暗示的条件分布。这些条件分布被组合成一个严格遵循观测变量因果模型的联合分布。通过从该分布中采样,causalAssembly生成的数据保证与真实情况下的马尔可夫性质一致。该工具展示了如何基准测试几种著名的因果发现算法,适用于复杂的生产数据,旨在解决因果关系学习中的验证问题。

causalAssembly is a semi-synthetic data generation tool jointly developed by the Technical University of Munich and Robert Bosch GmbH, designed for evaluating causal discovery methods. This tool is built upon a complex real-world dataset containing measurement data collected from assembly lines in manufacturing environments. By thoroughly investigating the underlying physical processes of the assembly line, researchers established a set of partially realistic causal relationships. To address potential confounding factors and privacy concerns, distributional random forests are employed to estimate and represent the conditional distributions implied by the real causal graph. These conditional distributions are then combined into a joint distribution that strictly adheres to the causal model of the observed variables. By sampling from this joint distribution, the data generated by causalAssembly is guaranteed to be consistent with the Markov property in real-world scenarios. This tool demonstrates how to benchmark several well-known causal discovery algorithms for complex manufacturing data, aiming to address the validation challenges in causal relationship learning.
提供机构:
慕尼黑工业大学
创建时间:
2023-06-19
搜集汇总
数据集介绍
main_image_url
构建方式
causalAssembly 数据集的构建方式采用了半合成数据生成的方法。首先,研究人员从一家制造工厂的装配线收集了真实的测量数据,并通过与领域专家的深入合作,确定了这些数据中部分变量之间的因果关系。然后,他们使用非参数回归技术,基于这些已知的因果关系,估计了完整的因果图。为了解决潜在的混杂和隐私问题,他们利用分布式随机森林(DRF)来估计和表示由真实因果关系图隐含的条件分布。最后,将这些条件分布组合成一个联合分布,该分布严格遵循观察变量上的因果模型。从该分布中采样,causalAssembly 生成了确保与真实因果关系图相关的马尔可夫性数据。
使用方法
使用 causalAssembly 数据集的方法如下:1)首先,从 Python 库 causalAssembly 中导入所需的模块和数据集;2)然后,可以使用数据集进行因果发现算法的基准测试,例如 PC 算法、DirectLiNGAM、NOTEARS、GraN-DAG 和 SCORE 等;3)最后,可以使用评估指标来衡量算法的性能,例如结构汉明距离(SHD)、结构干预距离(SID)、精确率、召回率和 F1 分数等。
背景与挑战
背景概述
在因果发现领域,算法的快速发展推动了非参数方法的广泛应用,以处理复杂的数据集。然而,大多数真实和复杂的数据源的真实因果关系仍然未知,而隐私问题也限制了高质量数据的发布。为了应对这些挑战,研究人员开发了一个名为causalAssembly的半合成数据生成器,旨在促进因果发现方法的基准测试。该工具基于一个复杂现实世界数据集,其中包含在制造环境中装配线上收集的测量值。通过对装配线中执行的过程的物理原理进行详细研究,为这些测量值建立了一组部分真实因果关系。这些部分真实因果关系足以通过非参数回归估计完整的因果图。为了克服潜在的混杂和隐私问题,研究人员使用分布随机森林来估计和表示由真实因果关系图隐含的条件分布。这些条件分布被组合成一个联合分布,该分布严格遵循观察变量的因果模型。通过从这个分布中采样,causalAssembly生成了确保相对于真实因果关系图是马尔可夫的数据。
当前挑战
尽管近年来取得了进展,但为因果发现算法推断的因果关系提供充分的实证验证仍然是一个挑战。大多数现实世界的例子都涉及复杂的数据源,其真实因果关系未知。此外,隐私问题也阻碍了高质量数据的发布。因此,提出新程序的研究论文通常使用简化的模拟设置,这些设置往往具有有限的泛化能力。当将这些方法应用于真实数据并由领域专家评估时,结果往往令人沮丧。为了帮助解决这些挑战,研究人员引入了causalAssembly,这是一个半合成数据生成工具,它利用广泛的领域知识和真实生产数据来形成真实情况。装配线产生数据,由多个生产站组成,在这些生产站中,通过自动制造过程将单个组件连接在一起。每个单独的制造过程高度依赖于先前过程的状态以及早期站点的原始组件的添加。由于物理过程的复杂性和非线性性质,包括机器状态、过程控制设置和组件状态的相互作用,整个装配线上出现了复杂的因果关系。在制造工厂中,过程由计算机监控,产生的测量值在整个过程中都被存储。从装配线上选择一个生产站子集,每个子集都包含具有已知因果关系的单个过程。通过咨询领域专家并仔细研究每个站点发生的物理过程,确定这些关系。然而,我们目前的过程知识目前还没有扩展到过程之间的关系。我们表明,对单个过程的广泛领域知识,以及生产线结构,会产生一个因果顺序,这与未知的真实分层图的顺序一致。因此,我们应用了特征选择策略(例如Bühlmann等人,2014年)来剪枝由这种因果顺序隐含的完整图。结果得到的因果图被视为因果Assembly中的适当真实情况。接下来,我们需要能够从真实因果关系分布中进行采样,该分布根据真实因果关系图分解。这是通过一个合成步骤实现的,该步骤通过分布随机森林(DRF)(Cevid等人,2022年;Gamella等人,2022年)学习真实图形指示的条件分布。将这些条件分布结合起来,就形成了一个联合分布,该分布严格遵循观察变量的因果模型。因此,使用causalAssembly采样的半合成数据的分布保证相对于真实图形是马尔可夫的。我们想指出的是,强忠实性(参见Uhler等人,2013年)不能保证在采样的数据中成立,这可能影响一些因果发现算法的一致性结果。
常用场景
经典使用场景
causalAssembly 数据集主要用于因果发现算法的性能评估和基准测试。通过结合真实的制造数据集和领域专家提供的部分因果关系知识,该数据集能够生成符合真实世界复杂性的半合成数据,用于评估和比较不同因果发现算法的性能。此外,causalAssembly 还可以用于研究和开发新的因果发现算法,以及探索不同算法在不同数据集上的表现。
解决学术问题
causalAssembly 数据集解决了因果发现领域中的一个关键问题,即缺乏真实的基准数据集。在大多数现实世界中,真实的因果关系往往是未知的,而且由于隐私问题,高质量数据的发布也受到限制。causalAssembly 通过使用真实的制造数据集和领域专家提供的部分因果关系知识,生成了半合成数据集,为因果发现算法的性能评估提供了可靠的基准。此外,causalAssembly 还能够解决数据隐私问题,因为它不涉及个人或敏感信息的发布。
实际应用
causalAssembly 数据集在实际应用中具有广泛的应用前景。它可以帮助制造企业识别和解决生产线上的问题,例如设备故障、产品质量问题等。此外,causalAssembly 还可以用于医疗领域,例如识别和治疗疾病之间的因果关系,以及教育领域,例如分析学习效果和影响因素之间的因果关系。此外,causalAssembly 还可以用于其他需要因果分析的应用领域,例如金融、经济、社会科学等。
数据集最近研究
最新研究方向
随着因果发现算法在近年来取得的快速进展,以及其应用领域的不断扩展,对算法学习到的因果关系的实证验证需求日益增长。然而,对于大多数现实世界的复杂数据源,真实的因果关系仍然未知。此外,关于发布高质量数据的隐私问题也进一步加剧了这一挑战。为了应对这些挑战,我们引入了causalAssembly,一个半合成数据生成器,旨在促进因果发现方法的基准测试。该工具使用一个复杂的真实世界数据集构建,该数据集由制造环境中装配线上的测量数据组成。通过对装配线中进行的物理过程的详细研究,我们建立了一组部分真实因果关系。这些部分真实信息足以通过非参数回归估计完整的因果图。为了克服潜在的混杂和隐私问题,我们使用分布随机森林来估计和表示由真实因果关系图隐含的条件分布。这些条件被组合成一个联合分布,该联合分布严格遵循观察变量的因果模型。从该分布中采样,causalAssembly生成保证相对于真实因果关系图是马尔可夫的数据。使用我们的工具,我们展示了如何对几种知名的因果发现算法进行基准测试。
相关研究论文
  • 1
    $\texttt{causalAssembly}$: Generating Realistic Production Data for Benchmarking Causal Discovery慕尼黑工业大学 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作