Time-IMM

github2025-10-15 更新2025-10-24 收录

下载链接：

https://github.com/blacksnail789521/Time-IMM

下载链接

链接失效反馈

官方服务：

资源简介：

Time-IMM是一个不规则多模态多元时间序列的基准数据集，包含九个数据集，其中八个在此发布中提供。数据集包括结构化时间序列数据和非结构化文本数据，遵循统一的数据层次结构，每个实体目录包含time_series.csv和text.csv文件。

Time-IMM is a benchmark dataset for irregular multi-modal multivariate time series. It consists of nine datasets, eight of which are provided in this release. The dataset includes both structured time series data and unstructured text data, following a unified data hierarchy where each entity directory contains time_series.csv and text.csv files.

创建时间：

2025-10-14

原始信息汇总

Time-IMM 数据集概述

数据集简介

Time-IMM 是一个不规则多模态多元时间序列数据集和基准测试集，作为 NeurIPS 2025 数据集与基准测试赛道提交的一部分发布。

数据集构成

完整基准测试包含九个数据集
由于 MIMIC-IV 的数据使用协议限制，无法重新分发其处理后的数据
提供预处理脚本和说明，帮助授权用户本地生成处理后的 MIMIC 数据
本次发布包含其他八个数据集

数据结构

所有数据集遵循统一结构以确保兼容性：

{数据集名称}/ └── processed/ └── {实体ID}/ ├── time_series.csv # 多元不规则时间序列数据 └── text.csv # 关联的非结构化文本数据

文件格式说明

time_series.csv 包含：

date_time：每个观测的时间戳
record_id：实体唯一标识符（与文件夹名称匹配）
其余列：对应多元时间序列数据的数值特征

text.csv 包含：

date_time：关联文本条目的时间戳
record_id：实体唯一标识符
最后一列：非结构化文本观察（如笔记、摘要、日志）

MIMIC 数据预处理

由于访问限制，原始 MIMIC 数据需要手动下载。请按照以下说明操作：

data/MIMIC/mimic_preprocess.ipynb

预处理将生成以下文件：

data/MIMIC/processed/{实体ID}/ ├── time_series.csv └── text.csv

引用信息

bibtex @inproceedings{ chang2025timeimm, title={Time-{IMM}: A Dataset and Benchmark for Irregular Multimodal Multivariate Time Series}, author={Ching Chang and Jeehyun Hwang and Yidan Shi and Haixin Wang and Wei Wang and Wen-Chih Peng and Tien-Fu Chen}, booktitle={The Thirty-ninth Annual Conference on Neural Information Processing Systems Datasets and Benchmarks Track}, year={2025}, url={https://openreview.net/forum?id=yeqrrn51TL} }

搜集汇总

数据集介绍

构建方式

在时间序列分析领域，Time-IMM数据集通过精心设计的结构整合了多元不规则时间序列与文本数据。该数据集采用统一的分层组织方式，每个实体独立存储在专属目录中，包含时间序列和文本两个核心文件。时间序列数据以CSV格式记录带时间戳的数值型观测值，文本数据则对应相同时间点的非结构化描述。针对受限的医疗数据，团队提供了预处理脚本供授权用户本地生成合规数据，确保了数据源的规范性与可复现性。

特点

该数据集最显著的特点在于其多模态架构，将数值型时间序列与自然语言文本进行时空对齐。每个数据单元同时具备结构化观测值和语义丰富的文本记录，形成了跨模态的互补表征。数据集涵盖环境监测、临床医疗等九个领域，实体标识符的设计支持跨场景对比研究。时间戳的精细粒度能够捕捉不规则采样模式，为真实世界中的异步多模态学习提供了理想试验场。

使用方法

研究人员可通过GitHub仓库获取数据集并遵循标准化的数据加载流程。使用时应首先根据实体标识符匹配时间序列与文本文件，利用pandas等工具解析CSV格式的时间戳和特征列。对于医疗数据应用，需先行获取MIMIC-IV官方授权再执行预处理脚本。基准实验建议采用原论文提供的评估框架，特别注意处理时间序列缺失值与文本语义嵌入的协同对齐问题。

背景与挑战

背景概述

时间序列数据分析作为机器学习领域的重要分支，近年来在医疗监测、环境感知等场景展现出广泛应用潜力。Time-IMM数据集由研究团队于2025年正式发布，作为NeurIPS会议数据集与基准赛道的重要成果，该数据集聚焦于不规则多模态多元时间序列的建模难题。通过整合九个异构数据源，其创新性地将结构化时间序列与非结构化文本数据进行对齐，为跨模态时序分析提供了标准化的评估框架。该数据集的发布显著推进了动态系统建模与多源信息融合领域的发展，为时序预测、异常检测等任务建立了新的研究范式。

当前挑战

在医疗健康等领域，多元时间序列常呈现不规则采样与模态异构的双重特性，传统方法难以有效融合数值序列与临床文本的互补信息。Time-IMM构建过程中面临多源数据对齐的技术瓶颈，需解决不同采样频率的时间戳同步问题，并建立数值特征与文本描述的语义关联。由于医疗数据的隐私保护要求，部分数据集需通过预处理脚本本地生成，这增加了数据一致性的维护难度。此外，跨模态表征学习中的语义鸿沟与时序依赖建模，仍是该数据集亟待突破的核心挑战。

常用场景

经典使用场景

在时间序列分析领域，Time-IMM数据集为处理不规则多模态多元时间序列提供了标准化框架。其经典应用场景集中于医疗监测与环境感知等动态系统，通过融合结构化数值序列与非结构化文本记录，支持对复杂时序模式的联合建模。例如在临床医疗中，该数据集能够同步整合患者的生理指标时间序列与医生诊疗笔记，为病程演变分析提供多维度观测视角。

衍生相关工作

基于该数据集衍生的经典研究包括多模态时序Transformer架构的优化工作，其中时序对齐注意力机制成为后续研究的基准模型。在NeurIPS 2025会议中，多项研究通过扩展其模态融合范式，提出了针对医疗时序预测的层次化记忆网络，以及适用于环境数据的时空图卷积模型，这些成果持续推动着多模态时序分析领域的技术演进。

数据集最近研究