MTBench

github2025-03-19 更新2025-03-25 收录

下载链接：

https://github.com/Graph-and-Geometric-Learning/MTBench

下载链接

链接失效反馈

官方服务：

资源简介：

MTBench是一个大规模的多模态时间序列基准测试，旨在评估大型语言模型在金融和天气领域的时间序列和文本理解能力。它包括配对的时间序列和文本数据，如金融新闻与相应的股票价格变动、天气报告与历史温度记录。MTBench提供了一个全面的测试平台，用于模型在结构化数值趋势和非结构化文本叙述上的联合推理。

MTBench is a large-scale multimodal time series benchmark designed to evaluate the time series and text comprehension capabilities of large language models in the financial and weather domains. It includes paired time series and text data, such as financial news paired with corresponding stock price movements, and weather reports paired with historical temperature records. MTBench provides a comprehensive testbed for models to conduct joint reasoning on structured numerical trends and unstructured text narratives.

创建时间：

2025-02-25

原始信息汇总

MTBench: 多模态时间序列基准数据集概述

1. 数据集简介

名称：MTBench (Multimodal Time Series Benchmark)
类型：多模态时间序列基准数据集
领域：金融和天气
数据组成：
- 配对的时间序列和文本数据
- 金融新闻与对应股票价格变动
- 天气报告与历史温度记录

2. 数据集特点

多模态：结合结构化数值趋势和非结构化文本叙述
任务多样性：
- 时间序列预测
- 语义和技术趋势分析
- 新闻驱动的问答(QA)
评估重点：
- 捕捉时间依赖性
- 从文本上下文中提取关键见解
- 整合跨模态信息

3. 数据集结构

MTBench/ │── data/ # 下载的数据集 ├── raw/ # 纯文本或时间序列数据集 ├── processed/ # 任务特定数据集 │── data_preparation/ # 数据集准备脚本 ├── weather/ # 天气数据处理脚本 ├── finance/ # 金融数据处理脚本 │── evaluation/ # 基准评估脚本 ├── weather/ # 天气数据评估脚本 ├── finance/ # 金融数据评估脚本 |── api_call.py # 调用LLM API的函数

4. 数据集使用

依赖安装： bash git clone https://github.com/asfeng/MTBench.git cd MTBench conda create -n MTBench python=3.10.14 source activate MTBench pip install -r requirements.txt
数据下载：
- 原始数据：python download_raw_dataset.py
- 处理后的数据：python download_processed_dataset.py

5. 评估方法

步骤：
1. 在evaluation/api_call.py中设置LLM的API密钥
2. 选择领域、评估任务和设置
3. 运行相应的评估脚本

6. 基准结果

金融数据结果

模型	趋势预测(ACC)	技术指标(MSE)	相关性(ACC)	MCQA(ACC)
GPT-4o	40.93 ➡️ 42.81	0.430 ➡️ 0.365	53.6	65.1

天气数据结果

模型	温度预测(MSE)	趋势预测(ACC)	温度差异(MSE)	MCQA(ACC)
GPT-4o	21.67 ➡️ 17.55	23.07 ➡️ 43.54	27.06 ➡️ 18.84	41.7

7. 引用与许可

许可证：MIT License
引用格式： bibtex @article{MTBench2025, author = {Your Name and Others}, title = {MTBench: A Multimodal Time Series Benchmark for Temporal Reasoning and Question Answering}, journal = {TBD}, year = {2025}, url = {https://arxiv.org/abs/placeholder} }

搜集汇总

数据集介绍

构建方式

MTBench作为多模态时间序列基准数据集，其构建过程体现了严谨的跨领域数据融合策略。研究团队通过系统性地采集金融和气象两大领域的时序数据与文本语料，包括股票价格波动与财经新闻的配对数据，以及温度记录与天气报告的关联信息。数据预处理阶段采用专业脚本进行技术指标计算、趋势标注和多选题样本生成，确保原始数据转化为具有明确任务导向的结构化格式。这种双模态对齐的构建方法，为模型提供了同时学习数值趋势和语义关联的基础。

使用方法

使用MTBench需通过conda创建专用Python环境并安装指定依赖库。数据集提供原始和预处理两种版本，用户可通过脚本自动下载。评估流程支持主流大语言模型的API调用，需在配置文件中设置输入模态（纯时序或图文结合）、预测时长等关键参数。例如金融趋势分类任务通过修改shell脚本参数即可启动，评估结果将自动保存至指定目录。这种模块化设计使得研究者能快速开展不同模态组合的对比实验，推动时序推理技术的迭代发展。

背景与挑战

背景概述

MTBench是由研究团队于2025年推出的多模态时间序列基准数据集，旨在评估大型语言模型在金融和气象领域的时序推理与问答能力。该数据集创新性地整合了结构化时序数据与非结构化文本叙述，包含股票价格与财经新闻的配对数据、气温记录与天气报告的关联信息，为跨模态时序分析提供了标准化测试平台。其核心研究价值在于探索数值趋势与语义语境之间的复杂关联，推动了时序预测、趋势分析和多模态问答等任务的发展，弥补了传统基准在跨模态时序推理评估方面的空白。

当前挑战

MTBench面临双重挑战：在领域问题层面，现有模型难以捕捉财经新闻与股价波动间的长程依赖关系，对气象事件与温度变化的因果推理存在显著偏差，且多模态信息融合效率低下；在构建过程中，需解决原始金融数据的噪声过滤、气象观测数据的时空对齐等技术难题，同时确保文本描述与时序数据的精确匹配。基准测试结果揭示，即使是GPT-4o等先进模型，在趋势预测准确率上仍未突破50%，凸显了跨模态时序推理这一前沿方向的探索难度。

常用场景

经典使用场景

在金融和气象领域，时间序列数据与文本信息的融合分析一直是研究热点。MTBench通过提供配对的时间序列和文本数据，为研究人员构建了一个多模态时间序列推理的标准化测试平台。该数据集最经典的使用场景是评估大型语言模型在跨模态时间序列理解方面的能力，例如分析财经新闻对股价走势的影响，或是气象报告与历史温度记录的关联性。

解决学术问题

MTBench有效解决了多模态时间序列分析中的若干关键学术问题。数据集通过精心设计的任务，如时间序列预测、语义和技术趋势分析以及新闻驱动的问答，帮助研究者深入探索模型在捕捉时间依赖性、从文本语境中提取关键信息以及整合跨模态信息方面的表现。特别是在金融和气象领域，该数据集揭示了当前模型在理解长期依赖关系、解释趋势因果关系方面的显著不足。

实际应用

在实际应用层面，MTBench为金融分析、气象预测等专业领域提供了重要参考。投资机构可利用该数据集开发更精准的新闻驱动型交易策略，气象部门则能基于历史数据和文本报告改进极端天气事件的预测模型。数据集中的多模态特性特别适合构建智能投顾系统或灾害预警平台，这些应用都需要同时处理结构化数值趋势和非结构化文本叙述。

数据集最近研究