TS-Haystack

github2026-03-05 更新2026-03-06 收录

下载链接：

https://github.com/AI-X-Labs/TS-Haystack

下载链接

链接失效反馈

官方服务：

资源简介：

TS-Haystack是一个半合成的基准测试，用于测试在长时间序列（1K-1M+数据点）上的检索和推理能力，使用Capture-24加速度计数据。它通过将精心设计的“针”活动插入到Capture-24数据集的真实背景中，生成了控制的问题-答案对。涵盖了从2.56秒到2小时的10种不同任务（存在检测、时间定位、计数、排序、状态查询、前因推理、比较、多跳定位、异常检测和异常定位）。

TS-Haystack is a semi-synthetic benchmark developed to evaluate retrieval and reasoning capabilities on long time series (1K–1M+ data points) using Capture-24 accelerometer data. It generates controlled question-answer pairs by inserting well-designed "needle" activities into the real-world context of the Capture-24 dataset. This benchmark encompasses 10 distinct tasks with durations ranging from 2.56 seconds to 2 hours, covering existence detection, temporal localization, counting, sorting, state query, antecedent reasoning, comparison, multi-hop localization, anomaly detection, and anomaly localization.

创建时间：

2026-03-02

原始信息汇总

TS-Haystack 数据集概述

数据集简介

TS-Haystack 是一个用于测试长时程时间序列（1K-1M+ 数据点）检索与推理能力的半合成基准数据集。它基于 Capture-24 加速度计数据，通过将精心设计的“针”（needle）活动插入到真实的背景数据中，生成受控的问题-答案对。该数据集旨在系统评估时间序列语言模型在长范围上下文中查找、推理和比较事件的能力，类似于文本大语言模型的“大海捞针”评估，但针对的是连续传感器数据。

数据集获取

直接访问地址：https://huggingface.co/datasets/nicozumarraga/capture24-ts-haystack-cot
下载方式：
1. 通过 pip install ts-haystack[download] 安装工具。
2. 使用脚本 python scripts/download_from_hf.py --dataset ts-haystack-cot 下载包含思维链（CoT）的数据集。
3. 或使用 python scripts/download_from_hf.py --dataset ts-haystack-core 仅下载用于本地生成的核心构件。

数据内容与结构

数据源：基于 Capture-24 原始传感器数据。
上下文长度：覆盖从 2.56 秒到 2 小时的范围（例如 2.56s, 10s, 100s, 900s, 3600s, 7200s）。
任务数量：包含 10 种不同的推理任务。
数据格式：存储为 Parquet 文件。
目录结构：

data/capture24/ts_haystack/ ├── timelines/ # 每位参与者的活动时间线 ├── bout_index.parquet # 跨参与者的活动片段索引 ├── transition_matrix.json # 活动转移概率矩阵 └── tasks/ # 各任务数据 ├── [context_length]/ # 按上下文长度划分 ├── [task_name]/ # 按任务名称划分 ├── train/data.parquet ├── val/data.parquet └── test/data.parquet

任务类型

序号	任务名称	问题示例	答案类型
1	存在性检测	“这段记录中有步行吗？”	布尔值
2	时间定位	“步行片段发生在什么时候？”	时间范围
3	计数	“发生了多少次步行片段？”	整数
4	排序	“步行发生在坐下之前吗？”	布尔值/类别
5	状态查询	“在上午 7:15 的活动水平是什么？”	类别
6	前因推理	“步行之前是什么活动？”	类别
7	比较	“最长的步行时段是什么？”	时间范围
8	多跳定位	“在坐下之后，第二次步行片段发生在什么时候？”	时间范围
9	异常检测	“这段记录中有异常吗？”	布尔值
10	异常定位	“是否有异常，如果有，在什么时候？”	时间范围

数据模式（Parquet Schema）

列名	类型	描述
`x_axis`, `y_axis`, `z_axis`	List[float]	三轴加速度计数据
`task_type`	str	任务名称（例如 "existence"）
`context_length_samples`	int	窗口大小（样本数）
`recording_time_start`	str	人类可读的开始时间
`recording_time_end`	str	人类可读的结束时间
`question`	str	生成的问题
`answer`	str	真实答案
`answer_type`	str	答案类型（boolean, integer, category, time_range, timestamp）
`needles`	str (JSON)	插入的“针”活动元数据
`difficulty_config`	str (JSON)	生成参数配置
`is_valid`	bool	验证状态

生成流程架构

生成管道包含四个阶段：

阶段一：核心构件构建（一次性）
- TimelineBuilder：从 Capture-24 数据中提取活动片段。
- BoutIndexer：创建用于快速采样的跨参与者索引。
- TransitionMatrix：学习活动转移概率。
阶段二：采样与风格迁移（每个样本）
- BackgroundSampler：采样纯净或混合的背景窗口。
- NeedleSampler：从活动片段索引中采样“针”活动。
- StyleTransfer：通过协方差投影和边界融合，使“针”活动的统计特性与背景匹配。
阶段三：任务生成（每个样本）
- 10 个任务生成器利用注入的组件创建多样化的问题-答案对。
- PromptTemplateBank 提供自然语言多样性。
阶段四：思维链生成（可选）
- 基于大语言模型生成思维链推理依据。
- 向 Parquet 文件添加 rationale 列。

配置选项

数据集生成通过 YAML 配置文件控制。关键参数包括：

context_lengths_seconds：上下文窗口长度（秒）。
needle_length_ratio_range：“针”活动时长占上下文的比例范围。
background_purity：背景纯度（"pure", "mixed", "any"）。
needle_position：“针”活动位置（"random", "beginning", "middle", "end"）。
style_transfer.transfer_mode：风格迁移模式（"mean_only" 或 "full"）。
style_transfer.blend_mode：边界融合模式（"cosine" 或 "linear"）。

使用与扩展

加载数据：可使用 Polars 库直接读取 Parquet 文件。
自定义生成：支持使用任何时间序列数据源，通过实现自定义的 BackgroundSampler 和 NeedleSampler 来生成样本。
开发与测试：提供完整的开发环境安装、测试和代码检查脚本。

引用

如果使用 TS-Haystack，请引用： bibtex @misc{Zumarraga2026TSHaystack, title = {TS-Haystack: A Multi-Scale Retrieval Benchmark for Time Series Language Models}, author = {Zumarraga, Nicolas and Kaar, Thomas and Wang, Ning and Xu, Maxwell A. and Rosenblatt, Mark and Kreft, Markus and OSullivan, Kevin and Schmiedmayer, Paul and Langer, Patrick and Jakob, Robert}, year = {2026}, eprint = {2602.14200}, archivePrefix= {arXiv}, primaryClass = {cs.LG}, url = {https://arxiv.org/abs/2602.14200}, }

许可证

本项目采用 MIT 许可证。

搜集汇总

数据集介绍

构建方式

在时间序列分析领域，构建高质量基准数据集对于评估模型的长程检索与推理能力至关重要。TS-Haystack采用半合成方法，以Capture-24加速度计数据为基础，通过精心设计的四阶段流水线生成可控的问答对。第一阶段从原始传感器数据中提取活动片段并构建核心构件，包括时间线、片段索引和转移矩阵；第二阶段采样真实背景窗口并插入定制化的“针状”活动，通过风格迁移技术使针状活动与背景统计特性相匹配；第三阶段利用依赖注入的组件生成涵盖十类任务的多样化问答对；第四阶段可选地添加基于大语言模型的思维链推理，增强数据集的解释性。

特点

该数据集在时间序列语言模型评估中展现出独特优势，其核心特点在于多尺度上下文覆盖与任务多样性。数据集支持从2.56秒到2小时的六种时间窗口长度，模拟了真实场景中从瞬时事件到长期模式的分析需求。十类任务设计全面覆盖存在检测、时序定位、计数、排序、状态查询、前因推理、比较、多跳定位、异常检测与定位等核心推理能力，每类任务均提供自然语言问题与结构化答案。通过风格迁移与边界融合技术，插入的针状活动在统计分布上与背景无缝衔接，确保了数据生成的逼真性与挑战性。

使用方法

研究人员可通过多种方式灵活使用该数据集进行模型开发与评估。最便捷的途径是从HuggingFace平台直接下载预生成的链式思维或核心构件版本，通过Polars库加载Parquet格式文件，按任务类型、上下文长度和数据集划分进行访问。对于需要自定义生成的研究，可基于原始Capture-24数据从头构建，通过YAML配置文件精细控制上下文长度、针状活动比例、背景纯度等参数。数据集架构支持扩展，用户可通过实现自定义的背景采样器与针状采样器接口，将生成流水线适配于其他时间序列数据源。生成后的数据以标准化目录结构组织，便于系统化评估与结果聚合。

背景与挑战

背景概述

在时间序列分析与语言模型交叉研究领域，长序列数据的检索与推理能力评估一直面临标准化基准的缺失。TS-Haystack数据集由Nicolas Zumarraga等研究人员于2026年构建，其核心研究问题聚焦于评估时间序列语言模型在长达1K至1M+数据点的连续传感器数据中定位、推理与比较事件的能力。该数据集基于Capture-24加速度计数据，通过插入精心设计的“针状”活动到真实背景中，生成可控的问答对，覆盖存在检测、时间定位、计数等十类任务。TS-Haystack的推出为时间序列模型的系统化评估提供了重要工具，推动了传感器数据分析与自然语言处理技术的深度融合。

当前挑战

TS-Haystack旨在解决时间序列数据中长范围上下文检索与推理的挑战，其核心问题类似于文本领域的“大海捞针”，但针对连续传感器数据。构建过程中的挑战包括：如何从原始Capture-24数据中提取高质量的活动时间线并建立跨参与者索引，以确保背景采样的真实性；设计有效的风格转移方法，使插入的“针状”活动在统计特性上与背景无缝融合，避免分布偏移；生成多样化的自然语言问答对，需平衡任务复杂性、语言多样性与评估的严谨性。这些挑战共同塑造了数据集的生成管道与任务设计。

常用场景

经典使用场景

在时间序列分析与语言模型交叉领域，TS-Haystack数据集为评估模型在长时程传感器数据中的检索与推理能力提供了标准化的测试平台。其通过将精心设计的“针状”活动嵌入真实的Capture-24加速度计背景数据中，生成了涵盖存在检测、时序定位、计数、排序等十类任务的问答对。这一设计使得研究者能够系统性地探究模型在不同时间尺度（从2.56秒至2小时）下对关键事件的识别与逻辑推断效能，类似于文本领域中的“大海捞针”评估，但专为连续时序数据而优化。

解决学术问题

TS-Haystack主要致力于解决时间序列语言模型在长上下文环境中事件检索与多步推理的评估难题。传统方法往往缺乏对模型细粒度推理能力的量化标准，而该数据集通过可控的“针状”活动插入与多样化任务生成，为模型提供了从简单存在性判断到复杂多跳定位的渐进式挑战。这不仅促进了模型在时序理解上的鲁棒性研究，还为跨活动状态查询、异常检测等核心学术问题提供了可复现的基准，推动了时序表示学习与推理机制的理论发展。

衍生相关工作

围绕TS-Haystack数据集，学术界已衍生出一系列专注于时间序列语言模型架构与评估方法的经典工作。这些研究通常利用其多尺度任务设计，探索Transformer等模型在长时序建模中的位置编码优化、注意力机制改进以及链式思维（CoT）增强策略。同时，该基准也激发了针对时序数据检索效率、跨域风格迁移以及少样本学习的新方法开发，为时序理解与自然语言处理的交叉融合提供了丰富的实验土壤，持续推动着该领域的技术前沿。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集