Multimodal Time Series Benchmark (MTBench)
收藏arXiv2025-03-21 更新2025-03-25 收录
下载链接:
https://github.com/Graph-and-Geometric-Learning/MTBench
下载链接
链接失效反馈官方服务:
资源简介:
MTBench是由耶鲁大学等多所研究机构共同创建的大型多模态时间序列数据集,旨在评估大型语言模型在金融和天气领域对时间序列和文本理解的能力。该数据集包含成对的时间序列和文本数据,如与股票价格变动相对应的金融新闻以及与历史温度记录对齐的天气报告。MTBench支持多样化的任务,如时间序列预测、趋势分析、技术指标预测以及基于新闻的问答,这些任务都需要模型深入理解文本和时间序列数据。
MTBench is a large-scale multimodal time-series dataset co-developed by Yale University and multiple other research institutions, which aims to evaluate the capabilities of large language models (LLMs) in comprehending both time-series data and text within the financial and weather domains. This dataset contains paired time-series and text data, such as financial news corresponding to stock price fluctuations and weather reports aligned with historical temperature records. MTBench supports a diverse range of tasks including time-series forecasting, trend analysis, technical indicator prediction, and news-based question answering, all of which require models to deeply understand both text and time-series data.
提供机构:
耶鲁大学, 麦吉尔大学, 德克萨斯大学里奥格兰德河谷分校
创建时间:
2025-03-21
原始信息汇总
MTBench: 多模态时间序列基准数据集概述
1. 数据集简介
- 名称: MTBench (Multimodal Time Series Benchmark)
- 类型: 多模态时间序列基准数据集
- 领域: 金融和天气
- 数据组成:
- 金融新闻与对应股票价格变动
- 天气报告与历史温度记录
- 特点: 结合结构化数值趋势和非结构化文本叙述
2. 数据集结构
MTBench/
│── data/
├── raw/ # 原始数据(纯文本或时间序列)
├── processed/ # 任务特定数据集
│── data_preparation/
├── weather/ # 天气数据处理脚本
├── finance/ # 金融数据处理脚本
│── evaluation/
├── weather/ # 天气数据评估脚本
├── finance/ # 金融数据评估脚本
|── api_call.py # LLM API调用函数
3. 数据集使用
- 依赖环境:
- Python 3.10.14
- 通过
requirements.txt安装依赖
- 下载方式:
- 原始数据:
python download_raw_dataset.py - 处理后的数据:
python download_processed_dataset.py
- 原始数据:
- 数据分布:
- 金融新闻影响持续时间分布
- 金融新闻类别分布
- 恶劣天气持续时间分布
- 天气事件类型分布
4. 评估任务
- 金融领域任务:
- 趋势预测 (ACC)
- 技术指标 (MSE)
- 相关性分析 (ACC)
- 多项选择问答 (MCQA, ACC)
- 天气领域任务:
- 温度预测 (MSE)
- 趋势预测 (ACC)
- 温度差异 (MSE)
- 多项选择问答 (MCQA, ACC)
5. 基准结果
金融数据结果
| 模型 | 趋势预测 (ACC) | 技术指标 (MSE) | 相关性 (ACC) | MCQA (ACC) |
|---|---|---|---|---|
| GPT-4o | 40.93 ➡️ 42.81 | 0.430 ➡️ 0.365 | 53.6 | 65.1 |
| Gemini | 41.30 ➡️ 47.30 | 0.482 ➡️ 0.384 | 51.8 | 63.6 |
| Claude | 41.20 ➡️ 44.90 | 0.241 ➡️ 0.373 | 50.4 | 75.6 |
| DeepSeek | 40.53 ➡️ 45.12 | 0.435 ➡️ 0.352 | 50.0 | 77.6 |
天气数据结果
| 模型 | 温度预测 (MSE) | 趋势预测 (ACC) | 温度差异 (MSE) | MCQA (ACC) |
|---|---|---|---|---|
| GPT-4o | 21.67 ➡️ 17.55 | 23.07 ➡️ 43.54 | 27.06 ➡️ 18.84 | 41.7 |
| Gemini | 25.75 ➡️ 24.31 | 17.91 ➡️ 51.76 | 35.72 ➡️ 23.21 | 43.4 |
| Claude | 30.34 ➡️ 22.48 | 33.23 ➡️ 56.87 | 21.03 ➡️ 19.10 | 51.8 |
| DeepSeek | 31.02 ➡️ 29.38 | 16.89 ➡️ 25.17 | 49.28 ➡️ 44.99 | 46.7 |
6. 引用与许可
- 许可证: MIT License
- 引用格式: bibtex @article{MTBench2025, author = {Your Name and Others}, title = {MTBench: A Multimodal Time Series Benchmark for Temporal Reasoning and Question Answering}, journal = {TBD}, year = {2025}, url = {https://arxiv.org/abs/placeholder} }
搜集汇总
数据集介绍

构建方式
MTBench数据集的构建过程体现了多模态数据融合的前沿理念。研究团队通过精心设计的采集流程,在金融和气象两大关键领域建立了时间序列与文本数据的对齐关系。金融数据方面,从8个专业财经网站爬取了20万篇新闻,经GPT-4o标注后精选2万篇,并与对应股票的高频价格数据(5分钟至1小时粒度)建立时序关联,构建了包含7天/30天输入与1天/7天预测的两种时间窗口。气象数据则整合了美国50个气象站2003-2020年的GHCN-H小时级观测数据,通过半径50公里的空间匹配算法,将极端天气事件报告与温度记录精准对齐,并采用LLM生成缺失的文本描述,最终形成2000组带有时空标注的多模态样本。
特点
该数据集的核心价值在于其创新的多模态交互设计:首先,金融领域实现了新闻情感(看涨/看跌)与股价走势的显式关联,包含80%一致样本和20%矛盾样本,可评估模型对误导信息的识别能力;其次,气象数据独创性地将风暴事件数据库与温度序列耦合,通过合成文本弥补原始记录描述缺失的问题;再者,同时支持短时(7天)和长时(30天)预测任务,涵盖技术指标计算(MACD、布林带)、趋势分类(5级离散化)以及新闻驱动的开放式问答等7类异构任务。这种时空粒度与任务复杂度的双重多样性,使其成为评估大模型跨模态推理能力的标杆性平台。
使用方法
使用MTBench需遵循其多任务评估框架:对于时间序列预测任务,可将股票价格或温度数据输入模型,通过MAE/MAPE指标衡量纯数值预测性能;当加入对应文本(财经新闻或天气报告)时,则测试模型融合非结构化信息的能力。趋势分析任务要求将连续变化量离散化为3类或5类标签,考察分类准确率。技术指标预测需特别关注MACD和温度极值点的回归损失。最具挑战的是新闻驱动QA,需联合分析如《亚马逊股票分析》等文本与对应股价波动,回答多选问题或判断相关性(强正/负相关等)。所有任务均提供标准化prompt模板,研究者可通过调整输入模态(纯时序/时序+文本)来系统评估模型优劣。
背景与挑战
背景概述
MTBench(Multimodal Time Series Benchmark)是由耶鲁大学、麦吉尔大学和德克萨斯大学里奥格兰德河谷分校的研究团队于2025年提出的多模态时间序列基准数据集。该数据集聚焦金融和气象领域,通过整合股票价格、气象数据与对应新闻文本,旨在评估大语言模型在跨模态时序推理和复杂问答任务中的表现。其创新性在于突破了传统单模态评估框架,首次系统性地构建了语义对齐的时序-文本配对数据,涵盖20,000组金融新闻-股价序列和2,000组气象报告-温度记录。作为时序理解领域的里程碑,MTBench推动了多模态推理、因果推断等核心研究方向的发展,为金融风险分析和气候预测等实际应用提供了标准化评估工具。
当前挑战
MTBench面临双重挑战:在领域问题层面,需解决时序与文本模态的语义鸿沟问题,例如金融新闻情感与股价波动的非线性关联、气象事件描述与温度变化的物理规律映射;在构建技术层面,存在数据对齐复杂性(如新闻发布时间与股价采样频率的同步)、噪声过滤(20%的金融新闻与真实趋势背离)以及跨模态标注一致性等难题。特别地,数据集中刻意保留的20%误导性新闻对模型抗干扰能力提出严峻考验,而气象数据的空间异质性(50个美国气象站)和事件驱动的文本生成(如LLM合成风暴报告)进一步增加了建模复杂度。
常用场景
经典使用场景
MTBench数据集在金融和气象领域的多模态时间序列分析中具有广泛应用。通过结合金融新闻与股票价格数据、气象报告与历史温度记录,该数据集支持时间序列预测、趋势分析和新闻驱动的问答任务。其独特的多模态设计使得研究者能够评估模型在结构化数值趋势和非结构化文本叙述之间的联合推理能力,为金融市场的风险评估、算法交易以及气象预测中的气候监测和灾害预防提供了强有力的数据支持。
实际应用
在实际应用中,MTBench数据集为金融和气象领域的决策支持系统提供了重要依据。例如,在金融领域,该数据集可用于构建基于新闻情感的股票价格预测模型,帮助投资者进行风险管理和交易决策。在气象领域,结合历史温度数据和天气报告的模型能够提升短期和长期气象预测的准确性,为灾害预警和资源调度提供科学依据。此外,该数据集还支持开发智能问答系统,帮助用户理解复杂的气象事件或金融市场动态。
衍生相关工作
MTBench数据集推动了多模态时间序列分析的多个经典研究方向。基于该数据集,研究者开发了多种模型和方法,如Time-LLM和Tempo,这些工作通过重新编程大型语言模型或结合预训练技术,提升了时间序列预测的准确性。此外,MTBench还启发了金融和气象领域的专用基准测试,如FinanceBench和WeatherBench 2,进一步扩展了多模态时间序列分析的应用范围。这些衍生工作不仅验证了MTBench的科学价值,也为未来的研究提供了丰富的参考和工具。
以上内容由遇见数据集搜集并总结生成



