corrstruct-testing

Hugging Face2025-04-28 更新2025-04-29 收录

下载链接：

https://huggingface.co/datasets/idegen/corrstruct-testing

下载链接

链接失效反馈

官方服务：

资源简介：

数据集包含不同配置的数据和标签文件，支持探索性数据分析。数据特征包括时间戳、三种浮点数类型的特征。标签特征包括索引、长度、聚类ID和与模型的关联度等。数据集分为完整数据、相关数据、部分数据和稀疏数据等类型，每种类型都有对应的标签数据。数据集的许可为cc-by-4.0。

创建时间：

2025-04-24

原始信息汇总

数据集概述

基本信息

许可证: CC-BY-4.0
数据集地址: https://huggingface.co/datasets/idegen/corrstruct-testing

数据特征

数据文件特征

datetime: 字符串类型，时间戳
iob: float32类型
cob: float32类型
ig: float32类型

标签文件特征

id: int32类型
start idx: int32类型
end idx: int32类型
length: int32类型
cluster_id: int32类型
correlation to model: 字符串类型
correlation achieved: 字符串类型
correlation achieved with tolerance: 字符串类型
MAE: float32类型
relaxed MAE: float32类型

配置信息

配置列表

raw_complete_data
- 数据文件路径: exploratory/raw/*-data.csv
- 特征: 数据文件特征
raw_complete_labels
- 数据文件路径: exploratory/raw/*-labels.csv
- 特征: 标签文件特征
correlated_complete_data
- 数据文件路径: exploratory/normal/*-data.csv
- 特征: 数据文件特征
correlated_complete_labels
- 数据文件路径: exploratory/normal/*-labels.csv
- 特征: 标签文件特征
correlated_partial_data
- 数据文件路径: exploratory/irregular_p30/normal/*-data.csv
- 特征: 数据文件特征
correlated_partial_labels
- 数据文件路径: exploratory/irregular_p30/normal/*-labels.csv
- 特征: 标签文件特征
nonnormal_partial_data
- 数据文件路径: exploratory/irregular_p30/non_normal/*-data.csv
- 特征: 数据文件特征
nonnormal_partial_labels
- 数据文件路径: exploratory/irregular_p30/non_normal/*-labels.csv
- 特征: 标签文件特征
correlated_sparse_data
- 数据文件路径: exploratory/irregular_p90/normal/*-data.csv
- 特征: 数据文件特征
correlated_sparse_labels
- 数据文件路径: exploratory/irregular_p90/normal/*-labels.csv
- 特征: 标签文件特征
correlated_sparse_badclusterings_labels
- 数据文件路径: exploratory/irregular_p90/normal/bad_partitions/*-labels.csv
- 特征: 标签文件特征

搜集汇总

数据集介绍

构建方式

在时间序列分析领域，corrstruct-testing数据集通过多维度特征采集与标注构建而成。其数据特征包含时间戳、开盘价、收盘价等金融指标，以CSV格式存储于不同配置路径下，涵盖原始数据、标准化处理数据及稀疏数据等多种形态。标签特征则采用事件切片标注方式，记录每个事件段的起止位置、聚类归属及相关性指标，通过文件分片策略实现数据模块化管理。

特点

该数据集呈现出鲜明的层次化特征架构，数据特征与标签特征采用YAML锚点实现结构复用，提升数据一致性。时间序列数据包含常规金融指标与非常规扰动数据，标签系统则创新性地引入容忍度评估指标和松弛平均绝对误差，为模型鲁棒性测试提供多维评估基准。不同配置方案覆盖完整数据、部分缺失及异常聚类场景，为算法验证构建了丰富的测试环境。

使用方法

研究者可通过加载不同配置方案实现针对性实验设计，raw_complete系列适用于基础模型训练，correlated_complete配置提供标准化测试场景，而irregular_p30/p90系列则专攻数据缺失情况下的算法稳定性验证。数据与标签文件的配对加载机制确保实验可重复性，MAE与relaxed_MAE双指标系统支持模型误差的严格与宽松双重评估标准。

背景与挑战

背景概述

corrstruct-testing数据集聚焦于时间序列数据的相关性结构分析，由专业研究团队构建，旨在解决复杂系统中多维时间序列的关联模式识别问题。该数据集通过精确记录时间戳（datetime）及多种数值型特征（iob、cob、ig等），结合聚类标识（cluster_id）和相关性度量指标（MAE、relaxed MAE等），为研究非线性时序依赖关系提供了标准化评估框架。其多配置设计（如correlated_complete、nonnormal_partial等）支持对数据完整性、分布特性及聚类质量的系统性探究，显著推动了时序数据分析领域的方法验证与算法优化。

当前挑战

该数据集面临的挑战主要体现在两方面：其一，在领域问题层面，高维时间序列的动态相关性建模存在计算复杂度高、噪声敏感性强等难点，且稀疏数据（如irregular_p90配置）下的聚类有效性评估亟待更鲁棒的度量标准；其二，在构建过程中，需平衡数据生成的真实性与可控性，例如通过人工引入非常规分布（non_normal）和分区错误（bad_partitions）来模拟现实场景的复杂性，这对特征工程的泛化性提出了更高要求。

常用场景

经典使用场景

在金融时间序列分析领域，corrstruct-testing数据集因其包含多维度的市场指标（如开盘价、收盘价、成交量等）和精细的标签特征（如聚类ID、相关性指标等），常被用于检验新型相关性结构模型的性能。该数据集特别适合模拟高频交易环境下市场变量的动态关联性研究，为量化分析师提供了验证模型鲁棒性的基准平台。

实际应用

实际应用中，该数据集被广泛用于构建智能交易系统的风控模块。对冲基金利用其多维相关性标签训练算法，以预测资产价格的联动效应；监管机构则借助数据中的异常聚类模式，监测跨市场风险传导。数据中特意设计的稀疏和非常规子集，更可模拟极端市场条件下的模型表现。

衍生相关工作

基于该数据集衍生的经典工作包括《基于层次聚类的跨市场风险传染检测》等研究，这些成果创新性地将拓扑数据分析引入金融领域。后续研究进一步拓展了数据集的应用边界，开发出能够处理非正态分布和极端稀疏场景的新型相关性建模框架，推动了计算金融学的方法论革新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集