Time-MMD

Name: Time-MMD
Creator: 佐治亚理工学院
Published: 2024-06-13 04:20:09
License: 暂无描述

arXiv2024-06-13 更新2024-06-21 收录

下载链接：

https://github.com/AdityaLab/Time-MMD

下载链接

链接失效反馈

官方服务：

资源简介：

Time-MMD是由佐治亚理工学院创建的首个多域多模态时间序列数据集，涵盖了9个主要数据域。该数据集通过精心选择的数据源和严格的过滤步骤确保了细粒度的模态对齐，并从文本中分离事实与预测，确保所有截止日期更新至2024年5月。Time-MMD的创建过程涉及从多个分散源收集文本数据，并通过先进的语言模型进行预处理，以确保数据质量和精确对齐。该数据集旨在通过多模态扩展显著推进时间序列分析，特别是在需要结合文本和数值数据的领域，如流行病学和经济预测。

Time-MMD is the first multi-domain, multi-modal time series dataset developed by the Georgia Institute of Technology, covering nine major data domains. This dataset ensures fine-grained modal alignment via carefully curated data sources and rigorous filtering steps, distinguishes factual content from predictive statements in text, and guarantees that all deadlines are updated to May 2024. The creation process of Time-MMD involves collecting text data from multiple decentralized sources and preprocessing it with state-of-the-art language models to ensure data quality and precise alignment. This dataset aims to significantly advance time series analysis through multi-modal expansion, particularly in domains requiring the integration of textual and numerical data, such as epidemiology and economic forecasting.

提供机构：

佐治亚理工学院

创建时间：

2024-06-13

搜集汇总

数据集介绍

构建方式

Time-MMD数据集的构建过程分为三个关键步骤：首先，从可靠的来源收集数值数据，确保数据的可靠性和准确性。其次，为了与数值数据进行精细匹配，收集文本数据，并通过人工选择数据来源和LLM进行原始文本过滤来确保匹配质量。此外，LLM还用于区分事实和预测，并生成摘要。最后，使用二进制时间戳作为通用的时间对齐方法，标记数值和文本序列的开始和结束日期，以支持各种下游TSA任务。

使用方法

Time-MMD数据集的使用方法包括：首先，从可靠的来源收集数值数据，确保数据的可靠性和准确性。其次，为了与数值数据进行精细匹配，收集文本数据，并通过人工选择数据来源和LLM进行原始文本过滤来确保匹配质量。此外，LLM还用于区分事实和预测，并生成摘要。最后，使用二进制时间戳作为通用的时间对齐方法，标记数值和文本序列的开始和结束日期，以支持各种下游TSA任务。

背景与挑战

背景概述

时间序列数据在现实世界的各个领域中无处不在，包括经济、城市计算和流行病学等。对这些数据集的分析任务在现实世界的各种场景中有着广泛的应用，例如能源预测、交通规划和流行病政策制定。人类专家通常通过整合多种时间序列数据的模态来完成时间序列分析（TSA）任务。例如，流行病学家会将流感感染的数据与文本领域的知识、政策和报告结合起来，以预测未来的流行病趋势。然而，现有的TSA模型大多依赖于单一的数值序列数据，忽视了数值序列之外信息的重要性。为了克服这一障碍，研究人员介绍了Time-MMD，这是第一个涵盖9个主要数据领域的多域、多模态时间序列数据集。Time-MMD确保了细粒度的模态对齐，消除了数据污染，并提供了高可用性。此外，研究人员还开发了MM-TSFlib，这是第一个多模态时间序列预测（TSF）库，基于Time-MMD无缝地管道化多模态TSF评估，以进行深入分析。在Time-MMD上通过MM-TSFlib进行的广泛实验表明，通过将单模态TSF扩展到多模态，性能显著提高，平均均方误差降低了15%以上，在某些文本数据丰富的领域甚至高达40%。更重要的是，我们的数据集和库彻底改变了更广泛的应用、影响和研究主题，以推动TSA的发展。

当前挑战

构建Time-MMD数据集面临的主要挑战包括：1) 数据域狭窄。不同领域的数据特征和模式各不相同，例如数值数据的周期性和文本数据的稀疏性。然而，现有的多模态TS数据集仅关注金融领域的股票预测任务，无法代表多样化的数据域。2) 模态对齐粗糙。现有的多模态TS数据集只能确保文本和数值数据来自同一领域，例如一般的股票新闻和特定股票的价格。显然，大量的不相关文本降低了多模态TSA的有效性。3) 固有数据污染。现有的多模态TS数据集忽视了数据污染的两个主要原因：（1）文本数据通常包含预测。例如，流感报告中定期发布流感展望。（2）过时的测试集，尤其是文本数据，可能已经被预训练在大量语料库上的大型语言模型（LLM）所接触。为了解决这些挑战，这项工作的目标是介绍一个涵盖多样化领域并通过其有效性验证和TSA收益的综合、高质量的多模态TS数据集。

常用场景

经典使用场景

Time-MMD数据集作为首个多领域、多模态的时间序列数据集，为时间序列分析领域提供了丰富的数据资源。它涵盖了9个主要的数据领域，包括农业、气候、经济、能源、环境、健康、安全、社会和交通。数据集确保了细粒度的模态对齐，消除了数据污染，并提供了高可用性。此外，基于Time-MMD数据集，开发了MM-TSFlib，这是一个多模态时间序列预测（TSF）库，能够无缝地集成多模态TSF评估，进行深入的探索和分析。在Time-MMD上进行的广泛实验表明，通过扩展单模态TSF到多模态，性能得到了显著提升，平均均方误差减少了15%以上，在某些文本数据丰富的领域甚至高达40%。

解决学术问题

Time-MMD数据集解决了现有时间序列分析模型主要依赖数值数据，而忽视了文本等模态信息的问题。通过引入文本数据，Time-MMD能够提供更全面的上下文信息，从而提高时间序列分析的准确性和有效性。此外，Time-MMD还解决了现有多模态时间序列数据集数据领域狭窄、模态对齐粗糙和数据污染等问题，为多模态时间序列分析提供了高质量的数据基础。

实际应用

Time-MMD数据集在实际应用中具有广泛的应用前景。例如，在能源预测、交通规划、流行病政策制定等领域，通过结合数值数据和文本数据，可以更准确地预测未来趋势，为决策提供支持。此外，Time-MMD还可以用于时间序列异常检测、时间序列插值等任务，进一步提高时间序列分析的应用价值。

数据集最近研究