STEAM

Name: STEAM
Creator: 剑桥大学 DAMTP
Published: 2025-10-22 00:16:00
License: 暂无描述

arXiv2025-10-22 更新2025-10-23 收录

下载链接：

https://github.com/harrya32/STEAM

下载链接

链接失效反馈

官方服务：

资源简介：

STEAM是一种用于医学治疗效果分析合成数据生成的方法。它通过模拟包含治疗的实际数据生成过程，并优化数据集中协变量分布、治疗分配机制和结果生成机制的保存，为下游的因果推断任务提供了高质量的数据。STEAM方法适用于各种包含治疗的医疗数据集，为下游的因果推断任务提供了高质量的数据。

提供机构：

剑桥大学 DAMTP

创建时间：

2025-10-22

原始信息汇总

STEAM 数据集概述

数据集基本信息

名称：STEAM
用途：医疗因果推断下游任务的合成数据生成与评估
来源：NeurIPS 2025论文《Improving the Generation and Evaluation of Synthetic Data for Downstream Medical Causal Inference》

核心功能

评估指标：用于评估因果推断任务合成数据质量的新型指标
生成方法：STEAM合成数据生成方法
实验复现：支持论文中所有实验结果的复现

数据内容

数据类型：合成医疗数据
应用场景：医疗因果推断
数据特征：包含协变量(X)、治疗变量(W)和结果变量(Y)

文件结构

核心实现：src/
- metrics.py：评估指标实现
- generation.py：通用和STEAM合成数据生成方法
- catenets_dp/：差分隐私PO估计器
实验脚本：exps/
- cgms/：CGM实验
数据处理：data/
实验结果：results/

环境要求

Python版本：3.10
依赖包：
- 通用/STEAM生成：requirements.txt
- 因果生成：requirements_dcm.txt

实验类型

指标评估：现有指标与提出指标分析
通用生成模型比较：
- 真实数据通用方法vs STEAM
- 模拟数据通用方法vs STEAM
稳定性分析：超参数实验
消融研究：
- X,W联合生成消融研究
- Q_W|X分类器消融

引用信息

bibtex @inproceedings{ amad2025improving, title={Improving the generation and evaluation of synthetic data for downstream medical causal inference}, author={Harry Amad and Zhaozhi Qian and Dennis Frauen and Julianna Piskorz and Stefan Feuerriegel and Mihaela van der Schaar}, booktitle={The 39th Conference on Neural Information Processing Systems}, year={2025} }

搜集汇总

数据集介绍

构建方式

在医学因果推断领域，真实患者数据的获取常受法规限制，STEAM数据集通过模拟包含治疗变量的数据生成过程来构建。该方法采用三阶段生成框架：首先利用通用生成模型学习协变量分布，随后基于逻辑回归分类器建模治疗分配机制，最后通过潜在结果估计器生成与治疗和协变量相关的结局变量。这种结构化生成方式精准复现了医学数据中协变量、治疗和结局之间的因果依赖关系。

使用方法

该数据集支持下游用户进行多样化的因果推断任务，包括倾向评分估计、平均处理效应和条件平均处理效应分析。使用者可通过加载预生成的合成数据，直接应用标准因果推断模型进行验证与探索。为确保结果可靠性，建议结合集成学习方法评估不同因果学习器的性能，并通过可视化工具检验数据分布与真实医学数据集的一致性。

背景与挑战

背景概述

STEAM数据集由剑桥大学、慕尼黑大学等机构的研究团队于2025年提出，旨在解决医学因果推断中真实数据访问受限的难题。该数据集聚焦于生成包含治疗变量的合成数据，通过模拟协变量分布、治疗分配机制和结果生成机制，为医疗干预效果评估提供高质量的数据基础。其创新性在于首次将因果推断任务的需求融入合成数据生成流程，推动了医学机器学习方法的发展与应用。

当前挑战

STEAM数据集面临的挑战主要涉及两方面：在领域问题层面，需确保合成数据能准确支持治疗效应估计等因果推断任务，避免因数据偏差导致医疗决策错误；在构建过程层面，高维协变量环境下保持治疗分配与结果生成机制的保真度是一大难点，同时需在未知真实因果图的复杂医学场景中平衡模型假设的合理性与生成质量。

常用场景

经典使用场景

STEAM数据集在医学因果推断研究中扮演着关键角色，其经典使用场景聚焦于生成包含治疗变量的合成数据，以支持下游因果效应分析任务。在医疗数据访问受限的背景下，该数据集通过模拟真实世界治疗数据的生成过程，为研究者提供了一个安全可靠的测试平台，用于开发和验证新型因果推断算法。其设计充分考虑了治疗分配机制与结果生成机制的保真度，使得基于该数据集的因果效应估计能够更准确地反映真实临床环境中的治疗响应模式。

解决学术问题

STEAM数据集有效解决了医学研究中因数据隐私限制导致的因果推断模型验证难题。通过构建符合因果图结构的合成数据，它克服了传统生成模型忽视治疗变量特殊性的缺陷，使研究者能够在保护患者隐私的前提下，系统评估条件平均处理效应（CATE）等关键因果量。该数据集通过分离协变量分布、治疗分配机制和结果生成机制的建模，为因果识别假设的检验提供了理论支撑，显著提升了合成数据在复杂医学决策场景中的科学价值。

实际应用

在实际医疗应用中，STEAM数据集被广泛用于构建临床试验的替代性数据源，支持药物疗效评估和个性化治疗策略开发。医院与研究机构可利用其生成符合真实患者群体特征的合成电子健康记录，用于培训临床决策支持系统而不暴露敏感信息。此外，该数据集还能模拟不同治疗协议下的潜在结果，为医疗资源优化配置和政策制定提供数据驱动的见解，同时确保符合GDPR等数据保护法规的合规性要求。

数据集最近研究