tsie-market-regime-dataset
收藏Hugging Face2026-04-13 更新2026-04-14 收录
下载链接:
https://huggingface.co/datasets/sujinwo/tsie-market-regime-dataset
下载链接
链接失效反馈官方服务:
资源简介:
TSIE: Temporal Signal Intelligence Engine — Market Regime Dataset (IDX) 是一个针对印尼股票市场(IDX)的多类别市场状态分类数据集,专为使用 Temporal Fusion Transformer (TFT) 等架构的时间序列建模设计。数据集包含 OHLCV 价格数据、工程化的技术指标、时间特征、交易时段感知特征(IDX 交易时间)以及基于规则信号逻辑的多类别状态标签。数据集适用于多类别分类任务(7 个类别),每个时间步都标记有一个市场状态,包括 STRONG SELL、WEAK SELL、BEAR TRAP、FLAT / NOISE、BULL TRAP、WEAK BUY 和 STRONG BUY。特征包括静态特征(如股票标识符)、时间变化已知特征(如时间索引、交易日信息)、时间变化观察特征(如 OHLCV、对数收益、RSI 等)以及观察到的分类特征(如信号数值)。数据集还包含 IDX 交易时段的编码信息,如交易时段 1(09:00–11:59)、午间休市(12:00–13:59)和交易时段 2(14:00–15:59)。标签生成基于规则信号分类,结合价格行为、波动率、RSI 和交易量逻辑。数据集结构包含时间、组 ID、时间索引、特征列、目标标签和训练/验证分割标识。数据集高度不平衡,建议使用类别加权、焦点损失或过采样少数类别等方法。适用于市场状态分类、算法交易研究和时间序列深度学习(如 TFT、LSTM、Transformer)。
创建时间:
2026-04-12
原始信息汇总
TSIE: Temporal Signal Intelligence Engine — Market Regime Dataset (IDX) 数据集概述
数据集基本信息
- 数据集名称:TSIE: Temporal Signal Intelligence Engine — Market Regime Dataset (IDX)
- 许可证:mit
- 任务类别:tabular-classification, time-series-forecasting
- 标签:finance, trading, Temporal Fusion Transformer, time-series, stock-market, IDX, TFT
- 数据来源:印度尼西亚股票市场(IDX)
数据集内容与目的
- 概述:该数据集为印度尼西亚股票市场(IDX)提供了一个多类别市场状态分类,专为使用时序融合变换器(TFT)等架构的时序建模而设计。
- 主要任务:多类别分类(7个类别)
- 核心内容:包含OHLCV价格数据、工程化的技术指标、时序特征、会话感知特征(IDX交易时间)以及基于规则信号逻辑的多类别状态标签。
标签类别描述
| 类别 | 标签 | 描述 |
|---|---|---|
| 0 | STRONG SELL | 高置信度看跌突破 |
| 1 | WEAK SELL | 温和看跌运动 |
| 2 | BEAR TRAP | 虚假突破 |
| 3 | FLAT / NOISE | 横盘/低波动性 |
| 4 | BULL TRAP | 虚假突破 |
| 5 | WEAK BUY | 温和看涨运动 |
| 6 | STRONG BUY | 高置信度突破 |
特征组
静态特征
- "group_id" → 股票标识符
时间变化已知特征
(未来可用)
- "time_idx"
- "hour", "day_of_week", "day_of_month"
- "hour_sin", "hour_cos"
- "dow_sin", "dow_cos"
- "session" (IDX session)
- "is_session_1", "is_session_2"
- "is_lunch_break"
- "is_opening", "is_closing"
时间变化观测特征
(每个时间步观测)
- OHLCV: "open", "high", "low", "volume"
- "log_return"
- "roc_5"
- "volume_ratio"
- "rsi"
- "bb_position"
观测分类特征
- "signal_numeric" → (-1, 0, 1)
市场会话编码(IDX)
数据集包含交易会话感知:
- Session 1:09:00–11:59
- Lunch Break:12:00–13:59
- Session 2:14:00–15:59
- 附加标志:开盘期、收盘期
标签生成方法
- 基于规则的信号分类
- 价格行为 + 波动性 + RSI + 成交量逻辑
- 灵感来源于交易启发式和状态检测
- 非基于未来信息泄露的标签
数据集结构
- 列:"time", "group_id", "time_idx", features..., "target" (主标签), "is_train" (训练/验证分割)
- 格式:Parquet文件(tft_dataset_ready.parquet)
使用说明
加载数据集
python import pandas as pd df = pd.read_parquet("tft_dataset_ready.parquet")
示例:TFT(PyTorch Forecasting)
python from pytorch_forecasting import TimeSeriesDataSet dataset = TimeSeriesDataSet( df, time_idx="time_idx", target="target", group_ids=["group_id"], )
重要注意事项
- 数据集高度不平衡(主导类别为"FLAT / NOISE")
- 建议使用类别加权、焦点损失或对少数类别进行过采样
预期用途
- 市场状态分类
- 算法交易研究
- 时序深度学习(TFT, LSTM, Transformer)
搜集汇总
数据集介绍

构建方式
在金融时间序列分析领域,数据集的构建质量直接关系到模型的预测性能。TSIE市场状态数据集针对印度尼西亚股票市场(IDX),采用规则驱动的信号分类方法生成多类别市场状态标签。该数据集整合了OHLCV价格数据、技术指标(如RSI和布林带位置)、对数收益率以及成交量比率等观测特征,并融入了时间索引、交易日周期以及IDX特有的交易时段(包括两个交易会话和午间休市)等时序与静态特征。标签生成过程基于价格行为、波动率、相对强弱指数和成交量逻辑的启发式规则,避免了未来信息泄露,确保了标签的时序一致性。
特点
该数据集的核心特点在于其精细化的市场状态划分与丰富的特征工程。它将市场动态划分为七个类别,涵盖从“强烈卖出”到“强烈买入”的完整状态谱系,包括“熊市陷阱”和“牛市陷阱”等关键转折点,为捕捉市场微观结构提供了细致视角。特征设计上,不仅包含经典的价格与成交量数据,还引入了会话感知特征,如交易时段标志和开盘收盘周期,以反映IDX市场的特定交易节奏。数据集结构明确区分了静态特征、时间已知特征和时序观测特征,并提供了训练验证分割标识,便于直接适配Temporal Fusion Transformer等现代时序预测架构。
使用方法
为服务于时序预测与分类研究,该数据集的使用需遵循特定的加载与预处理流程。用户可通过Pandas库直接读取Parquet格式文件,并利用PyTorch Forecasting库中的TimeSeriesDataSet类进行结构化封装,需指定时间索引、目标变量以及股票分组标识。鉴于数据集中“盘整/噪音”类别占主导的类别不平衡问题,在实际建模中建议采用类别加权、焦点损失函数或对少数类别进行过采样等策略以优化模型性能。该数据集主要应用于市场状态分类、算法交易策略研究以及LSTM、Transformer等深度学习模型的训练与评估。
背景与挑战
背景概述
金融市场时间序列分析领域,市场状态识别是量化交易与风险管理中的核心研究问题。TSIE: Temporal Signal Intelligence Engine — Market Regime Dataset (IDX) 由专注于时序信号智能的研究团队构建,旨在为印度尼西亚股票市场(IDX)提供多类别市场状态分类数据。该数据集融合了开盘价、最高价、最低价、收盘价及成交量等原始价格数据,并精心设计了技术指标、时序特征与交易时段感知特征,以支持基于时序融合变换器等先进架构的建模研究。其创建响应了市场状态动态建模的迫切需求,为算法交易策略的开发与评估提供了结构化、多维度的高质量基准数据,推动了金融时间序列分析领域从传统统计方法向深度学习范式的演进。
当前挑战
该数据集致力于解决金融市场状态分类这一复杂问题,其核心挑战在于市场状态本身具有高噪声、非平稳及多尺度耦合的特性,准确区分如'熊市陷阱'与'强势卖出'等细微状态需要模型具备强大的时序依赖捕捉与模式判别能力。在构建过程中,研究团队面临数据高度不平衡的难题,'盘整/噪声'类别占据主导,可能导致模型预测偏向多数类;同时,基于规则而非未来信息泄漏的标签生成方法虽避免了前瞻偏差,但如何确保规则逻辑在不同市场周期中的稳健性与泛化性亦构成显著挑战。此外,整合交易时段、季节性等异构时序特征,并保持特征工程与市场微观结构的一致性,亦是数据集构建中需克服的关键技术障碍。
常用场景
经典使用场景
在金融时间序列分析领域,TSIE市场状态数据集为印尼股票市场的多类别状态分类提供了结构化基准。该数据集整合了OHLCV价格数据、技术指标以及时间特征,特别适用于基于Temporal Fusion Transformer等先进架构的时序建模。研究者可利用其丰富的特征工程,如交易时段编码和规则驱动的状态标签,来训练模型识别市场中的强卖出、弱买入等七种典型状态,从而深入探索市场动态的复杂模式。
解决学术问题
该数据集有效应对了金融时序分析中市场状态识别这一核心学术挑战。通过提供基于价格行为、波动率和成交量逻辑的规则标签,它解决了传统方法在状态划分上依赖主观经验或未来信息泄露的问题。其多类别分类框架支持对市场非线性行为的量化研究,促进了机器学习模型在捕获市场转折点、区分虚假突破与真实趋势等方面的理论进展,为金融预测的稳健性提供了实证基础。
衍生相关工作
围绕该数据集,已衍生出多项聚焦于时序深度学习与金融预测的经典研究。例如,基于Temporal Fusion Transformer的架构被广泛用于建模其多变量特征,以提升状态分类的准确性;同时,针对数据不平衡问题,学者们引入了类别加权、焦点损失等技术进行优化。这些工作不仅推动了LSTM、Transformer等模型在金融领域的适配,也为跨市场状态检测的通用方法提供了重要参考。
以上内容由遇见数据集搜集并总结生成



