TSFragment-600K

Name: TSFragment-600K
Creator: 香港科技大学（广州）
Published: 2025-05-05 15:22:54
License: 暂无描述

arXiv2025-05-05 更新2025-05-07 收录

下载链接：

https://github.com/WinfredGe/T2S

下载链接

链接失效反馈

官方服务：

资源简介：

TSFragment-600K是一个包含超过60万个高分辨率时间序列-文本对的片段级数据集，用于文本到时间序列的生成任务。该数据集由香港科技大学（广州）的研究团队创建，包含来自能源消耗、金融汇率、交通、空气质量以及气象变量等多个领域的经典时间序列数据。每个时间序列样本都配有高分辨率、片段级的自然语言描述，通过使用GPT-4o-mini生成，确保了描述的质量和语义丰富性。该数据集为探索文本到时间序列的生成任务提供了坚实的基础，并支持T2S模型进行任意长度时间序列的生成。

TSFragment-600K is a segment-level dataset containing over 600,000 high-resolution time series-text pairs for text-to-time series generation tasks. This dataset was developed by a research team from The Hong Kong University of Science and Technology (Guangzhou), and encompasses classic time series data from multiple domains including energy consumption, financial exchange rates, transportation, air quality, and meteorological variables. Each time series sample is paired with high-resolution, segment-level natural language descriptions generated using GPT-4o-mini, which ensures the quality and semantic richness of the descriptions. This dataset provides a solid foundation for exploring text-to-time series generation tasks, and supports T2S models in generating time series of arbitrary lengths.

提供机构：

香港科技大学（广州）

创建时间：

2025-05-05

原始信息汇总

数据集概述：TSFragment-600K

基本信息

名称：TSFragment-600K
发布平台：Hugging Face
访问地址：https://huggingface.co/datasets/WinfredGe/TSFragment-600K
关联模型：
- T2S-DiT：https://huggingface.co/WinfredGe/T2S-DiT
- T2S-LA-VAE：https://huggingface.co/WinfredGe/T2S-pretrained_LA-VAE

数据集特点

规模：600K文本-时间序列片段对
领域覆盖：6个经典领域
标注类型：细粒度形态描述文本
数据对齐：片段级对齐

数据集结构

Data ├─ TSFragment-600K │ ├─ embedding_cleaned_airquality_24.csv │ ├─ embedding_cleaned_airquality_48.csv │ ├─ embedding_cleaned_airquality_96.csv │ ├─ embedding_cleaned_electricity_24.csv │ ├─ embedding_cleaned_electricity_48.csv │ ├─ embedding_cleaned_electricity_96.csv │ │ ... │ ├─ embedding_cleaned_traffic_24.csv │ ├─ embedding_cleaned_traffic_48.csv │ └─ embedding_cleaned_traffic_96.csv ├─ SUSHI │ └─ embedding_cleaned_SUSHI.csv └─ MMD ├─ embedding_cleaned_Agriculture_24.csv ├─ embedding_cleaned_Agriculture_48.csv ├─ embedding_cleaned_Agriculture_96.csv ├─ embedding_cleaned_Climate_24.csv ├─ embedding_cleaned_Climate_48.csv ├─ embedding_cleaned_Climate_96.csv │ ... ├─ embedding_cleaned_SocialGood_24.csv ├─ embedding_cleaned_SocialGood_48.csv └─ embedding_cleaned_SocialGood_96.csv

获取方式

直接加载： python from datasets import load_dataset ds = load_dataset("WinfredGe/TSFragment-600K")
完整下载：https://drive.google.com/file/d/1tV0xBd0ToWvuLpI5Ocd49uM3QcRkP4NT/view?usp=sharing

应用场景

非专家用户通过自然语言描述生成时间序列数据
专业人员快速原型设计
系统压力测试（模拟极端情况）

引用格式

bibtex @inproceedings{ge2025t2s, title={{T2S}: High-resolution Time Series Generation with Text-to-Series Diffusion Models}, author={Ge, Yunfeng and Li, Jiawei and Zhao, Yiji and Wen, Haomin and Li, Zhao and Qiu, Meikang and Li, Hongyan and Jin, Ming and Pan, Shirui}, booktitle={International Joint Conference on Artificial Intelligence (IJCAI)}, year={2025} }

许可协议

许可证类型：Apache-2.0 License

搜集汇总

数据集介绍

构建方式

在时间序列分析领域，高质量的多模态数据集对于推动文本到时间序列生成研究至关重要。TSFragment-600K数据集通过创新的构建流程实现了这一目标：首先将单变量时间序列分割为k个非重叠片段，每个片段代表一个连续的时序片段；随后采用基于种子提示的策略，利用GPT-4o-mini生成高质量的自然语言描述，并由专家团队对部分片段描述进行人工校验以确保质量；最后通过文本嵌入向量的余弦相似度评估，从五个候选描述中选取最优解，确保语义对齐的精确性。该流程在能源消耗、汇率、交通等八个经典时间序列数据集上实施，最终形成包含60万样本的大规模数据集。

特点

作为首个大规模片段级文本-时间序列对齐数据集，TSFragment-600K展现出三大核心特征：其多领域覆盖性囊括能源、金融、气象等12个领域，突破了传统数据集的领域局限性；细粒度标注体系通过片段级描述精准捕捉局部时序形态特征，在保持上下文关联的同时实现微观动态刻画；高质量语义对齐得益于创新的提示工程与嵌入筛选机制，确保每个时间片段与文本描述达到最优匹配。这些特性使其成为评估生成模型在细粒度时序语义理解方面的理想基准。

使用方法

该数据集为文本到时间序列生成任务提供了标准化评估框架。研究者可通过加载预处理后的h5格式数据，获取包含归一化时间序列和对应文本描述的数据对。典型应用场景包括：作为扩散模型的训练数据，通过条件生成实现文本指导的时序合成；作为评估基准，通过余弦相似度等指标量化生成序列与文本描述的语义一致性；还可用于跨领域迁移学习研究，验证模型在未见领域上的泛化能力。数据集的标准化分割方案（训练/验证/测试集）确保了实验的可重复性。

背景与挑战

背景概述

TSFragment-600K是由Griffith University、Xidian University、Carnegie Mellon University等机构的研究团队于2025年提出的一个高分辨率片段级时间序列-文本配对数据集，旨在推动基于扩散模型的文本到时间序列生成（T2S）研究。该数据集包含超过60万条跨12个领域（如能源、金融、交通等）的精细标注样本，通过GPT-4o-mini生成具有局部形态特征的语义描述，突破了传统领域特定数据集的局限性。作为首个支持片段级语义对齐的大规模通用数据集，TSFragment-600K为时间序列生成中的多模态对齐、长度自适应建模等核心问题提供了基准平台，显著提升了生成模型在医疗监测、经济活动预测等场景的适用性。

当前挑战

TSFragment-600K需解决两大核心挑战：在领域问题层面，现有时间序列生成模型存在文本-时序语义对齐粒度不足（仅支持实例级或点级描述）以及固定长度生成的局限性，难以捕捉局部动态模式；在构建过程中，需克服跨领域时间序列的异质性（如采样频率、数值尺度差异）、确保GPT生成描述的时序一致性，以及设计基于余弦相似度的多候选描述质量评估机制。此外，片段级标注需平衡局部细节与全局上下文的关系，这对构建长度自适应的变分自编码器（LA-VAE）和扩散Transformer的协同训练框架提出了更高要求。

常用场景

经典使用场景

TSFragment-600K数据集在时间序列生成领域具有广泛的应用场景，特别是在需要高分辨率、细粒度时间序列生成的场景中。该数据集通过提供超过60万个片段级文本-时间序列对，为研究者提供了一个强大的工具，用于探索文本到时间序列的生成任务。其经典使用场景包括金融市场的波动预测、气象数据的模拟生成以及医疗健康领域的生理信号合成。这些场景要求生成的时间序列不仅具有高度的真实性，还需要与输入的文本描述在语义上保持一致。

实际应用

在实际应用中，TSFragment-600K数据集被广泛用于多个领域的高质量时间序列生成。例如，在金融领域，该数据集可以用于生成与市场新闻描述相符的股价波动序列；在医疗领域，可以生成与患者症状描述匹配的生理信号数据；在气象领域，可以模拟与天气预报文本对应的气象参数变化。这些应用不仅提升了数据生成的效率，还为数据稀缺或不平衡的场景提供了有效的解决方案。

衍生相关工作

TSFragment-600K数据集的推出催生了一系列相关研究工作，特别是在文本到时间序列生成的模型设计方面。基于该数据集，研究者提出了T2S（Text-to-Series）框架，该框架结合了流匹配和扩散变换器，能够生成语义对齐的任意长度时间序列。此外，该数据集还激发了在时间序列分析、多模态学习等领域的新方法探索，进一步推动了时间序列生成技术的发展。

以上内容由遇见数据集搜集并总结生成