five

Time-IMM

收藏
arXiv2025-06-12 更新2025-06-14 收录
下载链接:
https://www.kaggle.com/datasets/blacksnail789521/time-imm/data, https://anonymous.4open.science/r/IMMTSF_NeurIPS2025
下载链接
链接失效反馈
官方服务:
资源简介:
Time-IMM是一个专门设计用于捕捉多模态多变量时间序列中因果关系驱动的非规则性的数据集。该数据集代表了九种不同的时间序列非规则性类型,这些类型被归类为基于触发器、基于约束和基于人工制品的机制。Time-IMM提供了丰富的注释文本数据,以及数值观察数据,使研究人员能够全面地模拟复杂的多模态交互和非规则采样行为。此外,IMM-TSF是一个用于在非规则多模态时间序列上进行预测的基准库,支持通过模块化组件进行编码和融合,从而实现灵活和现实的实验。通过引入Time-IMM和IMM-TSF,研究人员可以更深入地研究在真实世界条件下进行时间序列分析的方法,从而推动相关领域的发展。

Time-IMM is a dedicated dataset designed to capture causality-driven irregularities in multimodal multivariate time series. This dataset encompasses nine distinct types of time series irregularities, which are categorized into three mechanism groups: trigger-based, constraint-based, and artifact-based. Time-IMM provides rich annotated textual data alongside numerical observational data, allowing researchers to comprehensively simulate complex multimodal interactions and irregular sampling behaviors. Furthermore, IMM-TSF is a benchmark library for forecasting tasks on irregular multimodal time series, supporting encoding and fusion via modular components to enable flexible and realistic experimental configurations. By introducing Time-IMM and IMM-TSF, researchers can conduct in-depth investigations into time series analysis methods under real-world conditions, thus advancing the development of relevant research fields.
提供机构:
加州大学洛杉矶分校,国立阳明交通大学
创建时间:
2025-06-12
原始信息汇总

Time-IMM 数据集概述

数据集基本信息

  • 名称: Time-IMM
  • 描述: 一个包含九个真实世界、不规则、多模态多元时间序列数据集的精选集合,旨在反映实践中遇到的各种采样机制。
  • 领域: 医疗保健(MIMIC)、气候监测(EPA-Air)、网络遥测(CESNET)、社交感知(StudentLife)等。
  • 特点: 每个子数据集代表三种原因驱动的不规则性类别之一(触发型、约束型、伪影型),并配有异步文本注释。
  • 许可证: CC BY 4.0 (2025-05-15)
  • 更新频率: 每月

数据集结构

  • 数据层级:

    {dataset_name}/ └── processed/ └── {entity_id}/ ├── time_series.csv # 多元、不规则时间序列数据 └── text.csv # 关联的非结构化文本数据

  • 示例: data/EPA-Air/processed/Los_Angeles/time_series.csvdata/EPA-Air/processed/Los_Angeles/text.csv

文件内容

  • time_series.csv:
    • date_time: 观察时间戳
    • record_id: 实体唯一标识符
    • 其余列: 多元时间序列数据的数值特征
  • text.csv:
    • date_time: 关联文本条目的时间戳
    • record_id: 实体唯一标识符
    • 最后一列: 非结构化文本观察(如笔记、摘要、日志)

特殊说明

  • MIMIC子数据集: 由于NIH和IRB限制,MIMIC为受限访问资源。用户需满足以下条件才能使用:
    1. 为认证用户
    2. 完成所需培训(如CITI数据或仅限标本研究)
    3. 签署官方MIMIC数据使用协议
  • 预处理脚本: 提供预处理脚本 data/MIMIC/mimic_preprocess.ipynb,用于生成处理后的文件。

数据集包含的子数据集

  • CESNET
  • ClusterTrace
  • EPA-Air
  • FNSPID
  • GDELT
  • ILINet
  • MIMIC
  • RepoHealth
  • StudentLife

活动概览

  • 总浏览量: 108
  • 总下载量: 17
  • 最近30天浏览量: 77
  • 最近30天下载量: 14
  • 参与度: 0.15741(每次浏览的下载量)

其他信息

  • 基准库: 提供 IMM-TSF 基准库,实现时间戳到文本和多模态融合层的模块化预测。
  • 用途: 适用于时间序列预测、异常检测等领域。
搜集汇总
数据集介绍
main_image_url
构建方式
Time-IMM数据集的构建过程体现了对现实世界时间序列复杂性的高度还原。研究团队采用两阶段处理流程:首先从真实场景中采集具有九类不规则模式的多模态时间序列数据,涵盖触发型、约束型和人为干扰型不规则性;随后通过精心设计的文本数据策展流程,为每个时间序列配对上下文相关的文本信息(如临床记录、系统日志等),并保留原始异步时间戳。文本预处理采用GPT-4.1 Nano进行语义过滤和摘要生成,确保文本模态的信息密度和相关性。数据集构建特别强调保持数值序列与文本观测之间的自然时间异步性,避免人为对齐带来的失真。
特点
Time-IMM的核心价值在于其系统化的不规则性分类体系和多模态融合设计。数据集创新性地将时间序列不规则性归纳为三大类九种子类型,每种类型对应真实场景中的特定数据生成机制(如事件触发采样、资源约束采集等)。其多模态特性不仅包含传统数值观测,还整合了富含语义的异步文本数据,如临床笔记、新闻摘要等,为模型提供因果解释线索。数据集覆盖医疗、金融、环境监测等九大领域,每个子集均配备特征可观测熵、时间熵等量化指标,支持对不规则模式的细粒度分析。这种结构化设计使Time-IMM成为首个支持从因果角度研究时间序列不规则性的基准数据集。
使用方法
使用Time-IMM需结合配套的IMM-TSF基准库,该库提供模块化的多模态融合组件。研究流程通常包含三个关键步骤:首先通过时间对齐模块将不规则序列转换为固定网格表示,同时保留相对时间和缺失掩码特征;随后利用预训练语言模型处理异步文本,并通过时间感知融合模块(如时间加权平均或时间编码增强注意力)建立跨模态关联;最后通过多模态预测模块整合文本上下文进行 forecasting。实验设置建议采用60/20/20的时序分割,并注意不同子数据集特有的时间粒度(如医疗数据按分钟、金融数据按交易日)。为充分发挥多模态优势,推荐尝试不同的文本编码器(BERT/LLaMA等)与融合策略组合。
背景与挑战
背景概述
Time-IMM是由加州大学洛杉矶分校和国立阳明交通大学的研究团队于2025年提出的一个专注于不规则多模态多元时间序列的数据集。该数据集旨在解决现实应用中时间序列数据的不规则性、多模态性和杂乱性等核心问题,覆盖了医疗健康、气候建模和金融等多个领域。Time-IMM首次将时间序列的不规则性系统分类为触发型、约束型和人为型三大类九种子类型,并整合了丰富的文本模态数据,为时间序列分析提供了更接近真实场景的基准。
当前挑战
Time-IMM面临的挑战主要包括两方面:领域问题挑战和构建过程挑战。在领域问题方面,现有时间序列基准通常假设数据是清洁、规则采样和单模态的,这与现实场景存在显著差距,导致模型在实际部署时性能下降。在构建过程中,数据集需要处理多种不规则性类型,包括变采样率、异步模态和普遍缺失值等问题。此外,整合多模态数据(尤其是文本数据)时,如何保持时间戳的异步性并实现有效的跨模态融合也是一个重要挑战。
常用场景
经典使用场景
Time-IMM数据集在时间序列分析领域具有广泛的应用场景,特别是在处理不规则、多模态和多变量的时间序列数据时表现突出。该数据集通过捕捉现实世界中由触发事件、资源约束和系统异常引起的九种不同类型的不规则性,为研究人员提供了一个高度真实的基准测试平台。其经典使用场景包括医疗健康监测中的不规则生理信号分析、金融市场的非均匀交易数据建模以及环境监测中的多源异步传感器数据融合。数据集特有的多模态特性(数值时间序列与异步文本数据的结合)使其成为研究跨模态时间序列预测的理想选择。
实际应用
在实际应用层面,Time-IMM可直接支持多个关键领域的决策系统开发。在临床医疗中,其融合电子健康记录与医生笔记的能力可提升患者状态预测的准确性;在智能运维领域,该数据集能建模资源约束下的集群监控数据,优化异常检测算法;金融风控系统则可利用其操作窗口采样特性,更精准地预测非交易时段的资产风险。配套的IMM-TSF基准库提供即插即用的预测模块,包含时间戳-文本融合和多模态融合两种策略,支持产业界快速部署异步多模态时间序列分析解决方案。
衍生相关工作
基于Time-IMM已衍生出多个具有影响力的研究方向:在方法层面,t-PatchGNN等模型通过可变形图神经网络处理不规则时间序列;TimeLLM等研究探索了大型语言模型在时间序列预测中的迁移学习能力。在应用层面,衍生工作如MedFuse扩展了临床多模态融合框架,FNSPID构建了金融新闻-股价关联数据集。理论方面,对不规则性度量(特征可观测熵、时间可观测熵等)的系统定义,为后续研究提供了量化评估工具。这些工作共同推动了面向真实场景的时间序列分析范式转变。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作