macrichard/ts-text-dataset

Name: macrichard/ts-text-dataset
Creator: macrichard
Published: 2026-04-28 10:20:10
License: 暂无描述

Hugging Face2026-04-28 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/macrichard/ts-text-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

TS-Text数据集包含296,028个单变量时间序列，每个序列配有多条自然语言描述，涵盖趋势、波动、形状和事件内容。该数据集旨在训练和评估时间序列到语言的对齐模型，也可用于其他项目作为配对（信号，描述）数据的通用来源。数据集采用Parquet格式，包含10个zstd压缩的分片，总大小为709 MB。每个记录包含时间序列值、描述、长度和来源标签。描述分为原始描述和通过API生成的三种风格变体。数据集经过严格的清洗过程，确保数据质量。

TS-Text dataset consists of 296,028 univariate time-series, each paired with multiple natural-language captions describing trend, fluctuation, shape, and event content. The dataset was assembled to train and evaluate the alignment stage of time-series-to-language models. It can also serve as a generic source of paired (signal, caption) data for other projects. The dataset is in Parquet format, with 10 zstd-compressed shards totaling 709 MB. Each record includes timeseries values, captions, length, and source tags. Captions are divided into original descriptions and three API-generated style variants. The dataset underwent rigorous cleaning to ensure data quality.

提供机构：

macrichard

搜集汇总

数据集介绍

构建方式

TS-Text数据集旨在弥合时间序列信号与自然语言描述之间的鸿沟，以服务于跨模态表示学习任务。该数据集汇集了296,028条单变量时间序列，每条序列均配以多条自然语言描述，涵盖趋势、波动、形态及事件内容。数据集的构建采用分层字幕组装策略：首先，根据时间序列来源不同，生成一条或多条“原始”描述，这些描述或由视觉语言模型（如Gemma-4、Qwen2.5-VL-7B）基于信号渲染图生成，或结合程序化数值摘要形成；其次，利用Google Gemma-4-26b通过OpenRouter对所有信号渲染图生成三条结构化的“API”描述，采用短标签、技术描述与随意描述等三种风格变体。最终，每条记录包含4至6条描述，平均约4.1条，存储于10个Zstd压缩的Parquet分片中，总大小709 MB。

使用方法

TS-Text数据集的典型使用场景包括训练时间序列-语言跨模态编码器、多模态对比学习模型（如CLIP风格编码器）以及文本生成任务。用户可以通过HuggingFace Datasets库轻松加载数据，数据集配置为default，对应路径包含所有训练分片。每条记录以字典形式呈现，包含timeseries（浮点数列表，长度24至约3000）、captions（字符串列表，通常4至6条）、length（序列长度）及source（时间序列来源标签）四个字段。推荐将数据划分为训练集与验证集，利用其丰富的描述多样性训练模型对齐数值信号与自然语言语义。此外，数据集的Parquet格式支持高效读取与流式处理，适合大规模实验。使用时需引用相关基准数据集（如Lotsa）及TS-L-JEPA论文，并遵守CC-BY-4.0许可协议。

背景与挑战

背景概述

TS-Text数据集由研究者于2026年创建，旨在弥合时间序列数据与自然语言描述之间的语义鸿沟，其工作隶属于TS-L-JEPA项目的硕士论文研究。该数据集聚焦于多模态表示学习与文本生成任务，汇聚了来自Lotsa、UCR Archive等公开时间序列基准的296,028条单变量信号，每一条均配以平均4.1条涵盖趋势、波动、形态及事件内容的自然语言描述。通过整合多种视觉语言模型生成的注释与程序化数值摘要，TS-Text为跨模态对比学习（如CLIP风格编码器）提供了大规模、高质量的配对训练语料，有力推动了时间序列分析与语言理解融合研究的发展。

当前挑战

该数据集旨在解决时间序列领域长期存在的跨模态语义对齐挑战：传统模型难以将连续数值信号中的模式与人类可解读的概念（如“周期振荡”或“突变峰值”）进行关联，而TS-Text通过构建信号-描述配对数据，为可理解的时间序列表示学习奠定了基础。在构建过程中，研究者面临多源异质性难题——不同来源的信号长度从24到3000不等，且原始注释来自不同视觉语言模型及程序化方法，需统一清洗与格式规范化；同时，数据过滤阶段需精确剔除约937条包含拒绝模式、API失败标记等劣质描述，并处理5.7%的格式化残留，确保语义完整性而不损失记录，最终实现96.7%的预期描述覆盖率。

常用场景

经典使用场景

在时序分析与自然语言处理交叉领域，TS-Text数据集以其独特的配对形式——296,028条单变量时序信号与其对应的多模态自然语言描述（平均每条信号附带约4.1条标注），成为跨模态表示学习的基石。经典使用场景聚焦于时序-语言对齐模型的训练与评估，典型范例是TS-L-JEPA中两阶段对齐架构的构建。研究者可借助该数据集训练CLIP风格的双塔对比编码器，通过最大化时序信号与其文本描述间的互信息，习得可迁移的联合嵌入空间。

解决学术问题

该数据集开创性地解决了时序信号语义标注匮乏这一长期困扰机器学习的瓶颈问题。传统时序分析多依赖数值标签或简单类别，难以捕捉趋势、波动、形态及事件内容的细粒度语义。TS-Text通过引入结构化多视角描述（包括短标签、技术性分析与日常表达），使得时序文本对齐、零样本时序分类、以及基于语言引导的时序生成等前沿课题成为可能。其意义在于架起了数值信号与人类认知语言之间的桥梁，推动了时序表征学习从纯统计范式向语义理解范式的跃迁。

实际应用

实际应用场景涵盖工业监控、金融预测与医疗诊断等对时序数据解读高度依赖的领域。在智能运维中，该数据集可作为预训练语料，赋能运维系统将设备传感器波形自动转化为自然语言日志，实现异常的即时描述与预警。金融领域分析师可借助对齐模型，将股票价格走势直接关联到市场事件描述，提升趋势分析的直观性与可解释性。医疗场景下，心电图或脑电波信号的自动叙事生成将辅助临床决策，降低专业读图门槛。

数据集最近研究