TSAQA-Benchmark

Hugging Face2026-02-03 更新2026-02-05 收录

下载链接：

https://huggingface.co/datasets/TSAQA/TSAQA-Benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

TSAQA（时间序列分析问答基准）是一个新颖的统一基准，旨在扩展任务覆盖范围并评估多样化的时间分析能力。该数据集整合了6种不同的任务，涵盖从常规分析（如异常检测和分类）到高级分析（如特征描述、比较、数据转换和时间关系分析）的广泛范围。TSAQA包含210,000个样本，覆盖13个领域，并采用多种问题格式（真或假、多项选择、谜题）以全面评估时间序列分析能力。此基准旨在促进大型语言模型（LLM）和时间序列基础模型（TSFM）在时间序列分析和推理方面的发展。数据集来源多样，包括核心数据集（如澳大利亚电力需求、汇率数据等）、异常检测数据集（如心电图数据、服务器机器数据集等）和分类数据集（选自UCR档案，涵盖机器人学、能源、医疗保健等领域）。

创建时间：

2026-01-24

搜集汇总

数据集介绍

构建方式

在时间序列分析领域，构建一个能够全面评估模型能力的基准数据集至关重要。TSAQA-Benchmark的构建过程融合了多源异构数据，从能源、金融、医疗、自然现象、销售、交通及网络等13个不同领域精心挑选了17个核心数据集，并整合了来自异常检测与分类任务的专门数据集。通过自动化与半自动化流程，将原始时间序列数据转化为涵盖六类分析任务的210,000个样本，任务形式包括传统的判断题、选择题以及创新的谜题形式，确保了数据在任务类型与领域分布上的广泛代表性。

特点

该数据集的核心特征在于其统一框架下对时间序列分析能力的多维度覆盖。它不仅包含了异常检测与分类这类经典任务，更创新性地引入了表征、比较、数据变换及时序关系等高级分析任务，旨在推动模型超越传统模式识别，发展深层次的时序推理能力。数据集跨越广泛领域，样本规模庞大，且采用了多样化的问答格式，特别是独创的谜题形式，为评估大型语言模型及时序基础模型在复杂时序场景下的认知与推理能力提供了前所未有的挑战。

使用方法

研究人员可利用TSAQA-Benchmark系统性地评估与提升模型在时间序列问答方面的性能。使用前，需按照指定格式加载数据，数据集已按任务与领域进行组织。评估时，模型需接收包含时间序列数据及自然语言问题的输入，并生成相应的答案。该基准支持对模型在常规分析与高级分析两大类、共六项具体任务上的表现进行细粒度分析，是开发具备时序理解与推理能力的新型人工智能模型的关键工具。

背景与挑战

背景概述

时间序列分析作为数据科学的核心分支，其研究旨在从时序数据中提取模式、预测未来趋势并支持决策。然而，传统时间序列分析模型往往局限于特定任务，缺乏对复杂时序推理能力的统一评估框架。在此背景下，TSAQA-Benchmark应运而生，该数据集由研究团队于2024年创建，旨在构建一个涵盖常规分析与高级分析任务的统一基准。TSAQA整合了异常检测、分类、表征、比较、数据变换及时间关系分析六大任务，跨越能源、金融、医疗等13个领域，包含超过21万样本，并采用判断题、选择题及新颖的谜题形式。该数据集为大型语言模型及时序基础模型提供了全面的评估平台，推动了时序推理与认知理解能力的研究进展。

当前挑战

TSAQA-Benchmark致力于解决时间序列问答领域的核心挑战，即如何统一评估模型在多样化时序任务中的综合推理能力。传统时序模型常专注于单一任务，如分类或异常检测，难以处理需要深层时序理解的复杂问题，例如表征时序内在特性或推断片段间的时间关系。在构建过程中，研究团队面临多重挑战：首先，需整合来自17个核心数据集、6个异常检测基准及37个分类数据集的异构时序数据，确保数据在格式、长度和领域上的多样性；其次，设计涵盖常规与高级分析的任务框架，并引入创新的谜题形式，以全面捕捉模型的认知推理能力；最后，保持数据质量与标注一致性，避免因数据来源广泛而引入噪声或偏差，这对基准的可靠性与泛化性提出了严峻考验。

常用场景

经典使用场景

在时间序列分析领域，TSAQA-Benchmark作为一个统一的评估框架，其经典使用场景在于全面评估大型语言模型和时序基础模型在多样化时序任务上的推理能力。该数据集通过整合异常检测、分类、表征、比较、数据变换及时序关系分析等六类任务，覆盖了从传统分析到高级认知推理的广泛范畴，为模型提供了跨领域、多格式的标准化测试环境，从而推动了时序智能模型的系统化发展与性能比较。

解决学术问题

TSAQA-Benchmark有效解决了时序分析研究中任务分散、评估标准不统一的学术难题。通过将传统任务与高级分析任务纳入同一框架，该数据集促进了模型在时序表征学习、跨任务泛化及人类层级推理能力方面的探索，弥补了以往基准在认知深度和任务多样性上的不足，为时序推理的理论研究提供了扎实的数据基础与评估体系。

衍生相关工作

围绕TSAQA-Benchmark，已衍生出一系列专注于时序推理的经典研究工作。这些工作主要集中于开发适配时序问题的大型语言模型、设计跨任务迁移学习框架，以及探索多模态时序表示方法。这些衍生研究不仅深化了对时序认知机理的理解，也推动了时序分析模型在泛化性、可解释性及人机协作方面的前沿进展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集