TSRBench

github2026-01-30 更新2026-01-29 收录

下载链接：

https://github.com/tianyi-lab/TSRBench

下载链接

链接失效反馈

官方服务：

资源简介：

TSRBench是一个大规模、全面的基准测试，旨在测试通用模型（如LLMs、VLMs和TSLLMs）的时间序列理解和推理能力。该数据集覆盖了金融、医疗和工业系统等高风险领域的决策支持，包含4,125个问题，涵盖13个不同领域，分为4个主要维度（感知、推理、预测、决策）和15个具体任务。

TSRBench is a large-scale, comprehensive benchmark developed to evaluate the time series understanding and reasoning abilities of general-purpose models including LLMs, VLMs and TSLLMs. This dataset covers decision support scenarios in high-risk fields such as finance, healthcare and industrial systems, containing 4,125 questions across 13 distinct domains. It is categorized into four core dimensions: perception, reasoning, forecasting and decision-making, with 15 specific tasks associated with these dimensions.

创建时间：

2026-01-07

原始信息汇总

TSRBench 数据集概述

数据集基本信息

数据集名称: TSRBench
核心定位: 一个用于全面评估通用模型时间序列理解与推理能力的大规模、多任务、多模态基准测试。
设计目标: 旨在压力测试通用模型（如大语言模型、视觉语言模型、时间序列大语言模型）在时间序列数据上的能力，超越仅将时间序列视为孤立数值序列或仅关注表面模式识别的现有基准。

核心特征

综合性分类与规模: 将能力划分为4个主要维度（感知、推理、预测、决策），涵盖15个具体任务。包含来自13个不同领域的4,125个问题。
原生多模态支持: 专为通用模型设计，支持四种不同的模态：文本、图像、文本-图像交错以及时间序列嵌入。
统一评估流程: 提供标准化设置，支持通过API（如GPT-5, Gemini-2.5, DeepSeek）评估专有模型，以及通过vLLM进行本地推理以评估开源模型。
细粒度能力评估: 评估复杂的认知能力。

数据与任务

问题数量: 4,125个。
覆盖领域: 13个多样化领域。
任务维度: 涵盖感知、推理、预测、决策4个主要维度下的15个具体任务。
数据模态: 文本（T）、视觉（V）、文本-视觉混合（T+V）。

获取与使用

代码仓库: https://github.com/tianyi-lab/TSRBench
数据集地址: https://huggingface.co/datasets/umd-zhou-lab/TSRBench
项目网站: https://tsrbench.github.io/
相关论文: https://arxiv.org/abs/2601.18744

与相关基准对比

TSRBench在多个维度上优于现有基准，具体对比如下：

对比项	TSRBench	其他代表性基准（如TimeMMD, CiK, TimeSeriesExam等）
多领域	✅	部分支持或不支持
任务数量	15	1 至 7 个
问题数量	4.1K	0.3K 至 200K
多变量支持	✅	部分支持或不支持
感知能力评估	✅	部分支持或不支持
推理能力评估	✅	部分支持或不支持
预测能力评估	✅	部分支持或不支持
决策能力评估	✅	部分支持或不支持
模态支持	T, V, T+V	主要为文本（T），部分支持视觉（V）

引用信息

如需在研究中引用此数据集，请使用以下BibTeX格式：

@misc{yu2026tsrbenchcomprehensivemultitaskmultimodal, title={TSRBench: A Comprehensive Multi-task Multi-modal Time Series Reasoning Benchmark for Generalist Models}, author={Fangxu Yu and Xingang Guo and Lingzhi Yuan and Haoqiang Kang and Hongyu Zhao and Lianhui Qin and Furong Huang and Bin Hu and Tianyi Zhou}, year={2026}, eprint={2601.18744}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2601.18744}, }

搜集汇总

数据集介绍

构建方式

在时间序列分析领域，构建一个能够全面评估通用模型推理能力的基准数据集，需要超越传统数值序列的局限。TSRBench的构建过程体现了系统性设计理念，其核心在于从13个不同领域精心收集了4,125个问题，并依据时间序列理解的内在认知层次，将能力划分为感知、推理、预测与决策四大维度，进而细化为15项具体任务。数据集的构建不仅整合了文本、图像、图文交错以及时间序列嵌入四种模态，还确保了问题场景的多样性与现实复杂性，从而为模型评估提供了一个结构严谨、覆盖广泛的多任务多模态基础。

特点

TSRBench的显著特点在于其多维度的综合性与原生多模态支持。该数据集通过一个涵盖15项任务的精细分类体系，系统性地评估模型在时间序列上的深层认知能力，而非仅停留于表面模式识别。其规模跨越多个高价值领域，如金融与医疗，确保了评估场景的丰富性与代表性。尤为突出的是，数据集天然支持文本、视觉及混合模态的输入，并提供了统一的评估管道，既能无缝对接主流商业模型API，也支持通过vLLM在本地高效运行开源模型，实现了评估流程的标准化与灵活性。

使用方法

为充分发挥TSRBench的评估效能，研究者可根据模型类型选择相应的使用路径。对于具备API访问权限的专有模型，数据集提供了针对纯文本、纯视觉以及多模态输入的专用脚本，通过简单的命令行指令即可启动评估流程。对于开源模型，则可通过配置本地推理环境，利用vLLM等工具进行高效评估。用户通过克隆代码库并安装指定依赖后，即可根据指引修改或扩展评估脚本，从而在统一框架下对各类通用模型的时间序列推理能力进行便捷、可复现的基准测试。

背景与挑战

背景概述

时间序列数据作为现实世界动态系统的核心表征，在金融、医疗和工业等高价值决策领域扮演着关键角色。然而，传统的时间序列基准测试往往将其简化为孤立的数值序列，剥离了语义上下文，或仅聚焦于浅层模式识别，难以评估模型在复杂场景下的深层理解与推理能力。为应对这一局限，由马里兰大学、伊利诺伊大学厄巴纳-香槟分校、加州大学圣地亚哥分校及穆罕默德·本·扎耶德人工智能大学的研究团队于2026年联合推出了TSRBench。该基准旨在系统性地评估通用模型（如大语言模型、视觉语言模型及时间序列大模型）在时间序列理解与推理方面的综合能力，通过涵盖感知、推理、预测与决策四大维度的15项具体任务，构建了一个包含4125个问题、横跨13个领域的多模态评估平台，为推进时间序列智能研究提供了标准化且可操作的见解。

当前挑战

TSRBench致力于解决时间序列推理领域的核心挑战，即如何使通用模型超越简单的数值拟合或模式识别，实现融合语义上下文与跨模态信息的复杂认知任务。具体而言，该数据集构建过程中面临多重挑战：在领域问题层面，需设计能够同时评估模型在感知、推理、预测及决策等高级认知能力的多样化任务，并确保这些任务覆盖金融、医疗等多元且高风险的现实场景；在构建技术层面，挑战在于如何将文本、图像及时间序列嵌入等多种模态数据有机整合，以创建语义丰富的多模态问题，同时保证数据集的规模、质量与领域代表性，并建立统一且高效的评估流程以支持各类模型的便捷测试。

常用场景

经典使用场景

在时间序列分析领域，TSRBench作为一个综合性基准测试平台，其经典使用场景在于全面评估通用模型（如大语言模型、视觉语言模型及时间序列大语言模型）在跨模态时间序列数据上的理解与推理能力。该数据集通过涵盖感知、推理、预测与决策四大维度下的15项具体任务，为研究者提供了标准化的评估框架，用以系统检验模型在金融、医疗、工业等多元领域复杂时序问题中的表现，从而推动时间序列智能向更深层次的语义理解与逻辑推理迈进。

衍生相关工作

围绕TSRBench衍生的经典工作主要集中于通用模型在时序推理领域的架构创新与能力拓展。例如，研究者基于其多任务框架开发了专用于时序理解的预训练策略，或在多模态融合机制上提出新型注意力模型以提升跨模态对齐效果。这些工作不仅深化了对模型时序认知局限的认识，也催生了如时序视觉语言模型、时序决策代理等新兴研究方向，为构建更全能的人工智能系统奠定了理论与实验基石。

数据集最近研究