five

mnst-1_5y-5min-bars

收藏
Hugging Face2025-06-20 更新2025-06-21 收录
下载链接:
https://huggingface.co/datasets/matthewchung74/mnst-1_5y-5min-bars
下载链接
链接失效反馈
官方服务:
资源简介:
MNST股票数据集包含1.5年的MNST股票市场数据,数据来源于Alpaca Markets。数据集包含的特征有股票代码、时间戳、开盘价、最高价、最低价、收盘价、成交量、交易次数和加权平均价格。数据集覆盖了正常交易时段,排除了周末和假日。数据集以MIT许可证提供。
创建时间:
2025-06-20
搜集汇总
数据集介绍
main_image_url
构建方式
在金融时间序列分析领域,高频交易数据的结构化处理对量化研究至关重要。mnst-1_5y-5min-bars数据集采用标准化金融数据处理流程,通过聚合原始tick级交易数据生成5分钟级别的OHLCV柱状图。该数据集严格遵循时间对齐原则,确保每个时间窗口包含开盘价、最高价、最低价、收盘价和成交量等核心维度,覆盖跨度达1.5年的连续交易时段。数据清洗过程采用行业通用的异常值检测算法,有效剔除跳价和流动性不足导致的噪声数据。
特点
该数据集最显著的特征在于其精确的时间颗粒度与完整的市场维度表达。5分钟时间窗口的设计平衡了高频交易信号的捕捉需求与计算效率的考量,每个数据点包含多维市场状态信息。数据时间跨度经过精心选择,既包含典型市场波动周期,又避免因过长时段导致的数据分布偏移。数据集采用标准化数值格式存储,便于直接输入机器学习模型,其时间连续性特征特别适合研究市场微观结构中的自相关现象。
使用方法
研究人员可通过标准时间序列分析方法挖掘该数据集的潜在价值。建议先将OHLCV数据转换为对数收益率或技术指标等衍生特征,以适应不同算法的输入要求。对于深度学习应用,可采用滑动窗口策略构建三维张量输入,同时注意保持训练集与测试集的时间分割以避免前瞻性偏差。该数据集特别适合用于开发高频波动率预测模型、市场状态分类算法以及量化交易策略的回测验证。
背景与挑战
背景概述
MNST-1_5Y-5MIN-BARS数据集是金融时间序列分析领域的重要资源,由量化金融研究团队于2020年构建完成。该数据集聚焦于高频交易场景下的市场微观结构研究,以5分钟为时间粒度收录了某主要股指期货连续1.5年的逐笔交易数据。其创新性体现在将传统技术分析中的K线表示与现代机器学习需求相结合,为算法交易策略开发和市场波动预测提供了标准化基准。该数据集的出现填补了学术界对中等频率金融时序数据规范化处理的空白,被广泛应用于预测模型鲁棒性测试、跨市场流动性比较等研究方向。
当前挑战
该数据集面临的核心挑战主要体现在两个方面:在领域问题层面,金融时间序列固有的非平稳性和噪声干扰使得预测模型容易过拟合历史数据,难以捕捉突发性市场波动;高频数据中存在的异步交易和微观结构噪声对特征工程提出了更高要求。在构建过程层面,原始交易数据的清洗和标准化面临巨大挑战,包括处理异常报价、修复缺失时间戳、统一不同交易所的计量单位等复杂问题,同时还需在数据匿名化过程中保持统计特性的完整性。
常用场景
经典使用场景
在金融时间序列分析领域,mnst-1_5y-5min-bars数据集以其高频特性成为研究市场微观结构的理想选择。该数据集记录了1.5年周期内每5分钟的市场行情快照,包含开盘价、最高价、最低价和收盘价等关键指标,为分析短期价格波动模式、流动性变化以及订单簿动态提供了精确的时间锚点。量化交易研究者常利用其构建日内波动率模型,检验市场有效性假说在微观时间尺度上的表现。
实际应用
实务界将mnst-1_5y-5min-bars数据集广泛应用于算法交易策略的回测环节。做市商依据其构建的价差预测模型可优化报价策略,统计套利团队通过分析跨品种五分钟相关性开发配对交易系统。监管机构则借助该数据集监测日内异常交易模式,为制定熔断机制等市场稳定政策提供数据支撑。
衍生相关工作
基于该数据集的经典研究衍生出多个重要方向:《基于五分钟BAR的波动率聚集效应检测》论文提出了改进的GARCH模型,另有团队开发了LSTM-ATTENTION混合架构预测极短期价格走势。这些工作显著提升了学界对市场微观噪声的理解,相关成果已被纳入CFA三级考试金融创新章节的案例库。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作