MoTime
收藏arXiv2025-05-21 更新2025-05-24 收录
下载链接:
https://www.kaggle.com/datasets/krissssss/multimodal-time-series-forecasting/
下载链接
链接失效反馈官方服务:
资源简介:
MoTime是一个用于多模态时间序列预测的数据集套件,包括来自电子商务、网络流量、媒体和用户行为领域的8个数据集。每个数据集都将时间序列与文本、元数据和图像等外部模态相结合,支持结构化评估。数据集覆盖了广泛的领域,支持两种场景下的模态效用评估:1)在可变长度历史数据可用的情况下,2)在无历史数据的情况下进行冷启动预测。实验表明,外部模态可以改善两种场景下的预测性能,特别是对于某些数据集中的短序列,效果尤为显著。通过公开数据集和发现,旨在支持未来多模态时间序列预测研究中的更全面和更真实的基准测试。
MoTime is a dataset suite for multimodal time series forecasting, comprising 8 datasets from the domains of e-commerce, network traffic, media, and user behavior. Each dataset combines time series with external modalities such as text, metadata and images, enabling structured evaluation. The suite covers a wide range of domains and supports modality utility evaluation under two scenarios: 1) when variable-length historical data is available, and 2) cold-start forecasting without any historical data. Experimental results show that external modalities can improve forecasting performance in both scenarios, with particularly significant effects on short sequences in certain datasets. By publicly releasing this dataset suite and its associated findings, we aim to support more comprehensive and realistic benchmarking in future multimodal time series forecasting research.
提供机构:
Monash University, University of Málaga, VinUniversity, University of Granada
创建时间:
2025-05-21
原始信息汇总
MoTime: Multimodal Time Series Forecasting Suite
数据集描述
- 名称: MoTime: Multimodal Time Series Forecasting Suite
- 类型: 多模态时间序列预测数据集
- 内容: 包含时间序列与文本、图像和元数据的配对数据集
背景与动机
- 目标: 解决现实世界中的预测问题,特别是在以下挑战性场景中:
- 不同历史长度的预测(Varying-history forecasting)
- 冷启动预测(Cold-start forecasting)
- 现状: 大多数公共时间序列数据集为单模态或特定领域,缺乏多模态数据
数据来源
- 来源类型:
- 学术认可的基准数据集
- 网络规模平台数据
- 具体来源:
- 电子商务公开语料库(产品元数据、用户行为、评论)
- 用户活动数据集(流行度和互动日志)
- 外部信号(如Google Trends、天气、事件数据)
使用案例
- 多模态预测模型的基准测试
- 研究不同历史可用性下的模态效用
- 测试检索增强或冷启动预测
数据集结构
- 主要目录: amazon_review(包含30个文件)
- 内容: 亚马逊29个类别的商品级评论日志,包含每日评论计数序列和商品元数据(标题、描述、类别、价格)
- 文件示例:
- All_Beauty_f.csv (7.15 MB)
- Amazon_Fashion_f.csv (10.56 MB)
- Appliances_f.csv (37.74 MB)
- 其他类别文件(大小从123.16 kB到1.05 GB不等)
技术细节
- 总大小: 13.83 GB
- 文件数量: 13.1k
- 列数: 2103
- 许可证: CC BY-SA 4.0
- 更新频率: 未指定
活动数据
- 最近30天:
- 查看次数: 112
- 下载次数: 9
- 参与度: 0.08036(每次查看的下载次数)
搜集汇总
数据集介绍

构建方式
MoTime数据集套件通过系统性地重构和转换现有数据集构建而成,特别针对推荐系统领域的多模态时间序列预测任务。构建过程包括三个关键步骤:首先,将原始用户-物品交互数据转换为以物品为中心的每日流行度时间序列;其次,提取并对齐外部模态信息,如文本描述、物品图像和结构化元数据;最后,通过过滤和清理确保数据的一致性和可用性。此外,部分数据集还支持冷启动预测任务,通过标注物品发布前的时间段,使模型能够仅依赖外部模态信号进行预测。
特点
MoTime数据集套件涵盖了电子商务、网络流量、媒体和用户行为等多个领域,具有多样化的时间序列长度、稀疏性、时间分辨率和模态组合。其主要特点包括:1) 多模态对齐,每个时间序列与文本、图像或元数据等外部模态通过统一的物品标识符对齐;2) 支持冷启动预测,部分数据集包含明确的发布时间戳,便于模拟无历史数据的预测场景;3) 数据规模大且多样,从稀疏的长序列到密集的短序列均有覆盖;4) 领域覆盖面广,适用于从细粒度建模到语义长程预测等多种任务。
使用方法
MoTime数据集支持两种主要预测场景的使用方法:1) 变长历史预测:通过随机分割训练集为长历史和短历史子集,评估模型在不同历史长度下利用外部模态的效果;2) 冷启动预测:模拟完全无历史数据的情况,仅依靠物品的外部模态信息进行预测。对于变长历史预测,可采用双塔架构整合时间序列编码器和冻结的大型语言模型编码器;对于冷启动预测,可采用基于检索的生成流程,通过语义相似性检索相关时间序列作为上下文。数据集还提供了标准化的评估协议,包括RMSE和WRMSPE等指标,确保结果的可比性。
背景与挑战
背景概述
MoTime是由莫纳什大学、马拉加大学、VinUniversity和格拉纳达大学的研究团队于2025年推出的多模态时间序列预测数据集套件。该数据集旨在解决现实世界中多模态数据源日益丰富但现有研究仍局限于单模态时间序列的问题。MoTime覆盖电子商务、网络流量、媒体和用户行为等多个领域,将时间序列信号与文本、元数据和图像等外部模态配对,支持在历史数据可用和冷启动(无历史数据)两种场景下系统评估模态效用。通过公开数据集和研究成果,MoTime为未来多模态时间序列预测研究提供了更全面和现实的基准。
当前挑战
MoTime面临的挑战主要包括两个方面:领域问题的挑战和构建过程的挑战。在领域问题方面,MoTime旨在解决多模态时间序列预测中的关键问题,如如何有效整合不同模态的信息以提高预测性能,特别是在历史数据有限或缺失的情况下。在构建过程方面,挑战包括从原始数据中生成时间序列、提取和对齐多模态信息、以及过滤和清理数据以确保一致性和可用性。此外,MoTime还需要处理数据的稀疏性、不同模态之间的对齐问题,以及在不同领域和场景下的泛化能力。
常用场景
经典使用场景
MoTime数据集在时间序列预测领域中被广泛应用于多模态数据的融合分析。其经典使用场景包括零售、媒体流量和用户行为分析等领域,通过结合时间序列数据与文本、图像等外部模态,提升预测模型的准确性。特别是在处理冷启动问题时,MoTime能够有效利用静态描述信息进行预测,弥补历史数据的不足。
衍生相关工作
MoTime数据集衍生了一系列经典研究工作,包括MultiPatchTST和MultiWPMixer等多模态时间序列预测模型。这些模型通过融合时间序列编码器和大型语言模型(LLM)的能力,显著提升了预测性能。此外,MoTime还启发了冷启动预测任务的研究,推动了基于检索和生成的预测方法的发展。
数据集最近研究
最新研究方向
MoTime数据集作为多模态时间序列预测领域的最新研究资源,其前沿方向聚焦于跨模态信息融合与冷启动预测两大核心挑战。在跨模态融合方面,研究重点探索文本、图像与元数据如何协同增强时间序列的语义表征能力,特别是在历史数据稀疏或存在分布偏移的场景下,外部模态可显著提升模型对实体身份和上下文依赖的辨识度。冷启动预测则突破了传统方法对历史数据的依赖,通过检索增强生成技术(RAG)和大型语言模型的语义推理能力,实现仅凭静态描述生成未来趋势。当前热点包括:1)基于对比学习的模态对齐框架,解决跨域特征异构性问题;2)动态权重分配机制,量化不同模态在长短历史条件下的贡献差异;3)可解释性研究,分析图像描述文本化等预处理对预测偏差的影响。该数据集通过覆盖零售、媒体等8个领域的86万条多模态序列,为构建具有场景适应性的时间序列基础模型提供了关键基础设施。
相关研究论文
- 1MoTime: A Dataset Suite for Multimodal Time Series ForecastingMonash University, University of Málaga, VinUniversity, University of Granada · 2025年
以上内容由遇见数据集搜集并总结生成



