SURVHTE-BENCH

Name: SURVHTE-BENCH
Creator: 卡内基梅隆大学·机器学习系; 卡内基梅隆大学·Heinz学院; 美国国立卫生研究院·国家医学图书馆
Published: 2026-03-06 02:52:02
License: 暂无描述

arXiv2026-03-06 更新2026-03-07 收录

下载链接：

https://github.com/Shahriarnz14/SurvHTE-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

SURVHTE-BENCH是由卡内基梅隆大学团队构建的首个针对右删失生存数据异质性治疗效果估计的基准测试集，包含40个合成数据集（5万样本/个）、10个半合成数据集及2个真实世界临床数据。该数据集通过模块化设计系统模拟不同因果假设（随机试验/观察性研究）和生存分布（Cox/加速失效模型），并创新性地引入已知反事实的双生子数据作为验证基准。其核心价值在于为精准医疗领域提供可量化假设违反场景下的标准化评估框架，解决了现有生存分析方法评估碎片化的问题。

SURVHTE-BENCH is the first benchmark dataset for heterogeneous treatment effect estimation on right-censored survival data, developed by the team from Carnegie Mellon University. It consists of 40 synthetic datasets (50,000 samples per dataset), 10 semi-synthetic datasets, and 2 real-world clinical datasets. Designed with a modular framework, this dataset systematically simulates various causal assumptions (randomized controlled trials/observational studies) and survival distributions (Cox model/accelerated failure time model), and innovatively introduces twin data with known counterfactuals as a validation benchmark. Its core value lies in providing a standardized evaluation framework under quantifiable assumption violation scenarios for the field of precision medicine, addressing the fragmented evaluation issue of existing survival analysis methods.

提供机构：

卡内基梅隆大学·机器学习系; 卡内基梅隆大学·Heinz学院; 美国国立卫生研究院·国家医学图书馆

创建时间：

2026-03-06

原始信息汇总

SurvHTE-Bench 数据集概述

数据集简介

SurvHTE-Bench 是一个用于从删失生存数据中估计异质处理效应的基准测试。它包含合成、半合成和真实世界数据集。

数据集内容与结构

合成数据

位置：data/synthetic/
生成方式：通过 generate_synthetic_data.ipynb 生成。
数据构成：
- 每个 .h5 文件对应论文中的一个因果配置，每个文件内包含五个不同的生存场景。
- 总计 8 个因果配置 × 5 个生存场景 = 40 个合成数据集。
因果配置类型：
- 不同治疗比例的随机对照试验场景（RCT-50.h5 和 RCT-5.h5）。
- 存在混杂的观察性场景（OBS-CPS.h5）。
- 存在未观测混杂的观察性场景（OBS-UConf.h5）。
- 存在正性违反的观察性场景（OBS-NoPos.h5）。
- 上述三种观察性场景的信息性删失对应版本（OBS-CPS-IC.h5、OBS-NoPos-IC.h5、OBS-UConf-IC.h5）。
包含文件：
- 每个因果配置的 .h5 文件。
- idx_split.csv：用于可重复性的预定义训练/验证/测试分割。
- generate_synthetic_data.ipynb：用于重新生成数据集的笔记本。

半合成数据

位置：data/semi-synthetic/
数据集：
- MIMIC-IV 衍生的半合成数据集（不可重新分发）。
- ACTG175 半合成数据集。
预处理笔记本：prepare_mimic_semi_simulated.ipynb， prepare_actg_synthetic.ipynb。

真实数据

位置：data/real/
数据集：
- ACTG HIV 临床试验数据（ACTG_175_HIV1/2/3.csv）。
- 双胞胎死亡率数据（twin30.csv， twin180.csv）。
预处理：prepare_actg_175.py， prepare_twin_data.ipynb。

数据分割

每个数据集文件夹包含一个 idx_split_*.csv 文件，用于确保跨方法的可重复训练/验证/测试分割。

基准测试方法

该基准测试包含以下方法实现：

基于插补的元学习器。
双重机器学习。
生存分析适配的元学习器。
直接生存因果模型（如因果生存森林、SurvITE）。

实验运行

提供了用于在不同方法和数据集上运行实验的脚本，所有实验应从主工作目录运行。

结果存储与分析

所有结果存储在 results/ 目录下，按 {synthetic, semi-synthetic, real}/models_* 组织。
实验结果以 pickle 文件形式保存，可使用 notebooks/ 目录中的笔记本进行加载和分析。

数据来源与致谢

ACTG 175 临床试验数据由艾滋病临床试验组提供。
双胞胎死亡率数据源自 NBER 的双胞胎出生登记处。

搜集汇总

数据集介绍

构建方式

在生存分析领域，处理右删失数据并估计异质性处理效应（HTE）面临独特挑战，SURVHTE-BENCH作为首个综合性基准数据集，其构建过程体现了严谨的系统设计。该数据集通过模块化方法生成了40个合成数据集，这些数据集基于两个正交维度：因果配置和生存场景。因果配置包括随机对照试验和观察性研究，并系统性地引入了可忽略性、正性及可忽略删失等假设的违反情况；生存场景则涵盖了Cox比例风险模型、加速失效时间模型及泊松模型，并控制了低、中、高三种删失率。此外，数据集还包含了10个半合成数据集，这些数据集结合了真实世界协变量与模拟的处理和结局，以及两个真实世界数据集（双生子数据和HIV临床试验数据），从而在已知与未知真实效应的条件下提供了多样化的评估环境。

特点

SURVHTE-BENCH的突出特点在于其全面性与可扩展性。该基准首次统一了生存HTE估计方法，将现有方法归纳为结果插补法、直接生存因果法及生存元学习器三大类，并模块化地实现了53种方法变体，促进了方法间的可重复性与公平比较。数据集设计涵盖了从合成到真实的连续谱系，其中合成数据提供了已知真实效应的受控环境，半合成数据保留了真实协变量分布以增强现实性，而真实数据则提供了实际应用场景的验证。特别地，基准通过系统性地违反因果假设，如未观测混杂、正性缺失及信息性删失，深入探究了估计器在不同违反情境下的鲁棒性，为方法评估提供了前所未有的深度与广度。

使用方法

使用SURVHTE-BENCH进行方法评估时，研究者可遵循标准化的实验协议以确保结果的可比性。对于合成与半合成数据集，基准提供了真实的条件平均处理效应（CATE），允许直接计算均方根误差（RMSE）和平均处理效应（ATE）偏差等指标；评估通常包括多次随机分割（如10次），并使用验证集进行超参数选择，测试集用于最终性能报告。对于真实数据集，如双生子数据，可利用其已知反事实结局进行类似评估；而对于无真实效应的数据（如HIV试验），则可通过比较不同删失条件下的估计一致性来检验方法的稳定性。基准的代码与数据已公开，支持研究者便捷地集成新估计器或数据集，从而推动生存因果推断领域的可重复研究与持续进步。

背景与挑战

背景概述

SURVHTE-BENCH 是首个专注于右删失生存数据中异质性处理效应估计的综合性基准数据集，由卡内基梅隆大学的研究团队于2026年提出。该数据集旨在解决精准医学和个体化政策制定等高风险应用中，因删失、未观测反事实及复杂识别假设带来的独特挑战。通过整合合成、半合成及真实世界数据，SURVHTE-BENCH 系统性地评估了多种生存HTE方法在不同因果假设违反和生存动力学下的表现，为因果生存方法的公平、可复现和可扩展评估奠定了坚实基础。

当前挑战

SURVHTE-BENCH 面临的挑战主要体现在两个层面：在领域问题层面，其核心挑战在于如何准确估计右删失生存数据中的异质性处理效应，这需要同时处理删失机制、未观测混杂、重叠性违反及信息性删失等复杂问题；在构建过程层面，挑战包括设计模块化的合成数据套件以系统化地模拟不同因果配置和生存场景，整合半合成数据以平衡真实协变量分布与已知地面真值，以及确保基准的全面性和可扩展性，以支持未来方法的持续评估与比较。

常用场景

经典使用场景

在生存分析领域，SURVHTE-BENCH数据集为评估异质性处理效应估计方法提供了标准化基准。该数据集通过整合合成、半合成及真实数据，系统模拟了右删失生存数据中常见的因果假设违反场景，如未观测混杂、正性违反及信息性删失。其经典使用场景包括在可控环境下对比不同HTE估计器的性能，特别是在高删失率、非比例风险及复杂协变量结构条件下，为方法选择与优化提供实证依据。

衍生相关工作

SURVHTE-BENCH的推出促进了多类经典工作的衍生与发展。在方法层面，其系统评估了生存元学习器、直接生存CATE方法及结果插补方法，为后续研究如基于深度生存模型的元学习器优化提供了基准。在应用层面，该数据集支撑了针对特定临床场景的HTE方法改进，例如在肿瘤学或流行病学中处理高删失率数据的适应性算法。此外，其模块化设计启发了扩展基准的构建，如涵盖时变处理或多值治疗的评估框架。

数据集最近研究