TSRBENCH

Name: TSRBENCH
Creator: 马里兰大学帕克分校; 伊利诺伊大学厄巴纳-香槟分校; 加州大学圣地亚哥分校; 穆罕默德·本·扎耶德人工智能大学
Published: 2026-01-27 02:04:54
License: 暂无描述

arXiv2026-01-27 更新2026-01-28 收录

下载链接：

https://tsrbench.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

TSRBENCH是由多所顶尖高校联合构建的大规模多模态时间序列推理基准数据集，包含来自14个领域的4125个问题，涵盖感知、推理、预测和决策四大核心能力维度。数据集通过精心设计的15250条时间序列数据，支持文本、图像及混合模态输入，旨在全面评估通用模型在复杂时序场景下的多任务处理能力。其创建过程严格遵循文本-时序对齐和领域多样性原则，特别适用于金融、医疗、工业等关键领域的时间序列理解与决策支持研究。

TSRBENCH is a large-scale multimodal time series reasoning benchmark dataset jointly developed by several top-tier universities. It encompasses 4,125 questions spanning 14 distinct domains, covering four core capability dimensions: perception, reasoning, prediction, and decision-making. Equipped with 15,250 meticulously curated time series data samples, the dataset supports text, image, and hybrid modal inputs, and is designed to comprehensively evaluate the multi-task processing abilities of general-purpose models in complex temporal scenarios. Its development strictly adheres to the principles of text-temporal alignment and domain diversity, making it particularly well-suited for research on time series understanding and decision support in critical sectors such as finance, healthcare, and industry.

提供机构：

马里兰大学帕克分校; 伊利诺伊大学厄巴纳-香槟分校; 加州大学圣地亚哥分校; 穆罕默德·本·扎耶德人工智能大学

创建时间：

2026-01-27

搜集汇总

数据集介绍

构建方式

在时间序列分析领域，构建一个能够全面评估通用模型推理能力的基准数据集面临诸多挑战，包括数据稀疏性、噪声干扰以及模态对齐的复杂性。TSRBENCH通过双流数据采集策略应对这些挑战，一方面从14个真实领域（如金融、医疗、工业系统）的大规模公开数据集中收集并严格筛选，确保文本描述与时间序列在时间维度上的精确对齐；另一方面，针对数值推理等需要高精度真值的任务，采用基于领域知识的代码合成方法生成模拟时间序列，从而在多样性与可控性之间取得平衡。整个构建流程遵循高质量数据原则，包括问题的人工设计、基于代码或规则的真值生成，以及通过代码验证器和事实验证器的双重校验机制，最终形成了涵盖4125个问题的综合性基准。

使用方法

使用TSRBENCH进行评估时，研究者需遵循其统一的评估设置以保障结果的可比性。对于大型语言模型，时间序列被转化为数值文本序列进行输入；对于视觉语言模型，则通过代码生成时间序列曲线图作为视觉输入。评估过程支持对私有模型进行纯文本、纯视觉以及图文结合三种模式的测试，以探究其模态融合能力。数据集中每个问题均配有明确的选项与经过验证的真值答案，评估以准确率作为核心指标。为了深入分析模型表现，TSRBENCH提供了细致的错误分类框架，并鼓励进行分辨率影响、推理计算量缩放以及工具增强等消融实验，从而不仅衡量模型性能，更能诊断其能力边界与失败模式，为推进通用模型的时间序列推理研究提供实证依据。

背景与挑战

背景概述

时间序列数据在现实世界场景中无处不在，对从能源管理到交通控制等关键应用至关重要。因此，对时间序列进行推理是通用模型解决实际问题的核心能力。然而，现有通用模型基准中明显缺乏对这一维度的评估。为填补这一空白，由马里兰大学、伊利诺伊大学厄巴纳-香槟分校、加州大学圣地亚哥分校及穆罕默德·本·扎耶德人工智能大学的研究人员于2026年共同推出了TSRBENCH，这是一个全面的多任务多模态时间序列推理基准，旨在全面评估通用模型的时间序列推理能力。该基准涵盖14个领域的4125个问题，划分为感知、推理、预测和决策四大维度，包含15项具体任务，支持文本、图像及混合模态输入。TSRBENCH的建立为时间序列推理研究提供了标准化评估平台，推动了通用模型在复杂时序问题解决能力上的发展。

当前挑战

TSRBENCH所针对的核心领域问题是评估通用模型在复杂时间序列推理任务上的综合能力，其挑战主要体现在模型在推理、预测和决策任务上的显著性能瓶颈，尤其是在数值预测任务中，扩展定律失效，表明语义理解与数值预测之间存在脱钩。在构建过程中，挑战包括确保文本与时间序列的高对齐性、实现跨14个领域的多样化数据收集、生成可验证且无歧义的真实答案，以及为定量推理任务合成高保真模拟数据。此外，当前多模态模型未能有效融合文本和视觉表示以获取互补性能增益，这构成了另一项关键挑战。

常用场景

经典使用场景

在时间序列分析领域，TSRBENCH作为一个多任务多模态的综合性基准，其经典使用场景在于全面评估通用模型在时间序列理解与推理方面的核心能力。该基准通过涵盖感知、推理、预测和决策四大维度下的15项具体任务，为研究者提供了一个系统化的测试平台，用以检验模型在多元时间序列数据上的模式识别、逻辑推断与上下文整合表现。例如，在感知维度中，模型需从时序数据中识别趋势、周期性与异常点；在推理维度，则要求进行因果发现、数值计算与演绎归纳等复杂操作，从而深入探索模型处理真实世界时序问题的潜力。

解决学术问题

TSRBENCH致力于解决当前时间序列研究中的一个关键学术问题：传统基准往往将时间序列视为孤立的数值序列，忽视了其语义上下文与因果结构，导致模型难以应对实际场景中的复杂推理需求。该数据集通过整合来自14个领域的4125个问题，并支持文本、图像及多模态输入，系统化地评估模型在时序感知、逻辑推理、数值预测与策略决策等方面的综合能力。其意义在于首次构建了一个覆盖全频谱时间序列推理能力的标准化评估框架，揭示了当前通用模型在语义理解与数值预测之间存在脱节的现象，并为推动具有时序推理能力的通用模型发展提供了关键见解与方向指引。

实际应用

在实际应用层面，TSRBENCH所涵盖的任务与多个高价值领域紧密相连，能够直接支撑关键场景中的智能决策系统。例如，在医疗健康领域，模型可通过心电时序信号进行病理模式识别与临床管理建议；在金融风控中，能够基于历史价格序列与市场事件进行趋势预测与量化策略评估；在工业系统与环境监测中，则可实现异常检测、因果发现与事件预警。这些应用不仅要求模型具备精准的时序模式感知能力，更需要其融合领域知识进行复杂推理与决策，从而提升自动化系统在能源管理、交通控制、灾难预报等实际场景中的可靠性与智能化水平。

数据集最近研究