finml-lab-data
收藏Hugging Face2025-08-09 更新2025-08-10 收录
下载链接:
https://huggingface.co/datasets/Sierra-Arn/finml-lab-data
下载链接
链接失效反馈官方服务:
资源简介:
这是一个专注于比特币(BTCUSDT)的加密货币数据集,包含1小时OHLCV蜡烛图市场数据,用于机器学习实验和教育目的。数据来源于Kaggle上的一个数据集,并以原始和预处理两种形式提供。数据集的结构包括处理后的数据、原始数据和样本数据三个部分。该数据集遵循BSD-3-Clause许可。
创建时间:
2025-08-08
搜集汇总
数据集介绍

构建方式
在加密货币金融数据分析领域,该数据集基于Arthur Neuron提供的原始分钟级期货OHLCV数据,通过时间序列聚合技术生成1小时级别K线。原始数据来源于Kaggle平台并遵循MIT许可协议,经过严格的清洗与标准化处理,确保时间戳对齐和缺失值处理,最终划分为训练集与测试集的Parquet格式存储。
特点
数据集涵盖BTCUSDT交易对的OHLCV核心市场数据,集成多维度技术指标以支持机器学习建模。其特色在于提供原始数据与预处理后数据的双版本对照,包含采样文件便于快速探索,且所有特征均经过规范化处理以保证模型训练稳定性。数据时间跨度与频率设计充分考虑了金融时间序列的周期特性。
使用方法
用户可通过加载Parquet格式文件直接获取结构化数据,训练集与测试集已预先划分以支持监督学习任务。建议首先查阅data_overview.md了解特征工程细节,再利用标准化管道处理数据。该数据集适用于时间序列预测、价格波动分析等金融机器学习场景,并可无缝对接finml-lab项目中的实验框架。
背景与挑战
背景概述
金融机器学习实验室数据集由Sierra-Arn团队于2024年构建,专注于加密货币市场的高频时间序列分析。该数据集以BTCUSDT交易对的1小时OHLCV数据为核心,整合了原始价格数据与技术指标预处理版本,旨在为量化交易策略和时序预测模型提供标准化实验平台。其设计理念源于金融科技领域对高质量、可复现机器学习数据集的迫切需求,通过系统化的数据清洗与特征工程,显著提升了加密货币市场预测研究的可靠性与可比性。
当前挑战
该数据集致力于解决加密货币市场波动性预测的复杂性挑战,包括非线性价格动态、高噪声环境下的信号提取以及多因子耦合效应。在构建过程中面临原始数据粒度转换的技术难题,需通过精确的时间对齐和缺失值处理保证1小时K线的完整性;同时需平衡技术指标计算的计算效率与数值稳定性,避免过拟合风险。市场数据的非平稳性和外部事件干扰进一步增加了特征工程的挑战性。
常用场景
经典使用场景
在金融机器学习研究领域,该数据集为时间序列预测提供了标准化的实验基准。研究者通常利用其包含的BTCUSDT一小时OHLCV数据与技术指标,构建基于LSTM、Transformer等深度学习架构的价格预测模型,并通过训练集与测试集的明确划分进行严谨的模型验证与性能比较。
解决学术问题
该数据集有效解决了加密货币市场高波动性环境下预测模型泛化能力不足的学术难题。通过提供经过清洗和特征工程处理的标准化数据,支持研究者开展可复现的机器学习实验,推动了量化金融领域在特征提取、波动率建模和风险控制等方面的理论创新与方法优化。
衍生相关工作
围绕该数据集衍生的经典研究包括基于多尺度特征融合的加密货币价格预测框架、结合注意力机制的时序建模方法,以及集成市场情绪因子的混合预测模型。这些工作显著丰富了金融机器学习领域的理论体系,并为后续研究提供了可扩展的技术路线和评估基准。
以上内容由遇见数据集搜集并总结生成



