ICYM2I

Name: ICYM2I
Creator: 哥伦比亚大学
Published: 2025-05-23 01:34:38
License: 暂无描述

arXiv2025-05-23 更新2025-05-24 收录

下载链接：

https://github.com/reAIM-Lab/ICYM2I

下载链接

链接失效反馈

官方服务：

资源简介：

ICYM2I数据集是一个用于评估在缺失情况下多模态学习预测性能和信息增益的框架。该数据集由哥伦比亚大学的研究团队创建，旨在解决实际应用中数据缺失问题对多模态学习模型的影响。数据集包含合成、半合成和真实世界数据，通过逆概率加权方法校正缺失数据对模型性能的影响，从而提高模型的预测能力和信息增益。该数据集适用于医学领域，如检测结构性心脏病，以及在其他需要多模态数据的应用场景中。

The ICYM2I dataset is a framework for evaluating the predictive performance and information gain of multimodal learning models under conditions of missing data. Developed by a research team at Columbia University, this dataset aims to address the adverse impact of missing data on multimodal learning models in real-world applications. It includes synthetic, semi-synthetic, and real-world data, and utilizes the Inverse Probability Weighting (IPW) method to correct for the bias in model performance induced by missing data, thereby enhancing the model's predictive capability and information gain. This dataset is applicable to medical scenarios including structural heart disease detection, as well as other application scenarios requiring multimodal data.

提供机构：

哥伦比亚大学

创建时间：

2025-05-23

原始信息汇总

ICYM2I数据集概述

数据集简介

名称: ICYM2I (In Case You Multimodal Missed It)
用途: 评估缺失情况下的预测性能和信息增益
方法: 基于双重逆概率加权校正的框架

方法论

核心问题: 多模态学习中缺失性问题被忽视导致的偏差
解决方案: 通过逆概率加权校正缺失性带来的偏差
技术特点: 提供预测性能和信息增益的校正评估框架

使用方式

基础使用

估计逆概率权重(IPW)
使用IPW训练模型
在IPW校正下评估性能

信息分解

使用QEstimator估计Q值
计算带IPW校正的部分信息分解(PID)

实验内容

合成数据实验

二进制逻辑实验
- 生成具有AND/OR/XOR结果的二进制模态
- 展示缺失性下现有方法的偏差
- 使用笔记本: experiments/run_logic.ipynb
模拟实验
- 研究不同模态贡献的变化
- 分析校正PID与真实值的一致性
- 数据生成笔记本: experiments/generate_simulation_data.ipynb
- 实验运行笔记本: experiments/run_simulation.ipynb (需12小时GPU计算时间)

半合成实验

使用UR-Funny数据集版本
强制视频模态缺失以展示偏差
使用笔记本: experiments/run_humour.ipynb

结构性心脏病检测实验

数据要求: 配对PA视图胸片DICOM文件和12导联心电图
处理步骤:
1. 设置CXR和ECG环境
2. 获取ELIXR和ECG-FM模型权重
3. 生成模态嵌入
4. 应用不同校正方法

环境要求

主环境: clinical_pid_env.yaml
心脏病检测额外环境:
- ECG环境: ecg_env.yaml
- CXR环境: cxr_env.yaml

引用

bibtex @article{choi2025icym2i, title={ICYM2I: The illusion of multimodal informativeness under missingness}, author={Choi, Young Sang and Jeanselme, Vincent and Elias, Pierre and Joshi, Shalmali}, year={2025} }

搜集汇总

数据集介绍

构建方式

ICYM2I数据集的构建基于多模态学习中的缺失性问题，通过逆概率加权（IPW）方法校正缺失模态下的预测性能和信息增益估计。数据集包含合成、半合成和真实世界医疗数据，用于验证在多模态缺失情况下的模型性能和信息增益评估。构建过程中，特别关注了缺失机制对模态信息增益估计的潜在偏差，并提出了相应的校正方法。

特点

ICYM2I数据集的特点在于其专注于多模态学习中的缺失性问题，提供了多种缺失机制下的数据样本，包括完全随机缺失（MCAR）、随机缺失（MAR）和非随机缺失（MNAR）。数据集通过合成和真实数据结合的方式，展示了缺失机制对模态信息增益估计的影响，并提供了校正后的性能评估方法。此外，数据集还包含了部分信息分解（PID）的量化结果，用于评估模态间的信息共享、独特和互补性。

使用方法

ICYM2I数据集的使用方法包括三个主要步骤：首先，通过逆概率加权（IPW）校正训练数据中的缺失偏差，以估计真实数据分布下的模型性能；其次，利用校正后的模型评估模态的信息增益，包括预测性能和部分信息分解（PID）的量化；最后，通过合成和真实数据的实验验证校正方法的有效性。数据集适用于多模态学习、缺失数据处理和信息增益评估的研究。

背景与挑战

背景概述

ICYM2I（In Case You Multimodal Missed It）是由哥伦比亚大学和纽约长老会医院的研究团队于2025年提出的一个专注于多模态学习环境下缺失数据问题的框架。该数据集旨在解决多模态数据在开发和部署阶段因成本、硬件故障或模态信息感知差异导致的模态缺失问题。ICYM2I通过逆概率加权校正方法，量化缺失模态的信息增益，为下游任务提供无偏估计。其核心研究问题在于如何准确评估在缺失数据情况下的预测性能和信息增益，避免因忽略缺失过程而产生的偏差。该框架在医疗健康等领域具有重要应用价值，特别是在资源受限的环境中优化数据采集策略。

当前挑战

ICYM2I面临的挑战主要包括两方面：1) 领域问题挑战：多模态学习常假设模态完整性，但实际部署时模态缺失会导致分布偏移，传统方法会高估模态价值。例如在医疗领域，心电图（ECG）和胸片（CXR）的缺失模式可能反映临床决策偏好，直接建模会引入选择偏差。2) 构建过程挑战：需解决缺失机制的形式化建模问题（如MAR假设验证），高维数据下部分信息分解（PID）的数值稳定性，以及逆概率加权中倾向得分估计的准确性。此外，模态间复杂的信息冗余与互补关系（如ECG与CXR对结构性心脏病的协同检测）也增加了信息增益量化的难度。

常用场景

经典使用场景

ICYM2I数据集在医疗健康领域具有广泛的应用前景，尤其是在多模态学习任务中。该数据集通过整合心电图（ECG）和胸部X光片（CXR）等多种模态数据，为结构心脏病（SHD）的检测提供了丰富的信息来源。其经典使用场景包括在多模态模型中评估不同模态的信息增益，以及在缺失数据情况下进行模型性能的无偏估计。

衍生相关工作

ICYM2I数据集衍生了一系列相关研究，包括多模态缺失数据处理方法的改进、信息增益的量化框架优化，以及多模态模型在医疗领域的应用拓展。这些工作进一步推动了多模态学习在缺失数据场景下的理论发展和实际应用。

数据集最近研究