Grencape/semantaai-main-assets
收藏Hugging Face2026-03-28 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/Grencape/semantaai-main-assets
下载链接
链接失效反馈官方服务:
资源简介:
---
pretty_name: AI Hedge Fund Gold Binance 5m
license: mit
task_categories:
- time-series-forecasting
language:
- en
tags:
- finance
- cryptocurrency
- ohlcv
- trading
---
# AI Hedge Fund Gold Dataset: Binance 5m (One File Per Asset)
## Summary
- Exchange: `binance`
- Timeframe: `5m`
- Packaging rule: **1 file = 1 asset**
- Symbols: BNB/USDT, BTC/USDT, ETH/USDT, SOL/USDT, XRP/USDT
- Total rows: 4072058
- Index files: `DATASET_INDEX.csv`, `DATASET_INDEX.json`
## Files
| Symbol | Start (UTC) | End (UTC) | Rows | File |
|---|---|---|---:|---|
| BNB/USDT | 2017-11-06T03:50:00+00:00 | 2026-03-01T18:25:00+00:00 | 873200 | `BNBUSDT__binance__5m__2017-11-06__2026-03-01.parquet` |
| BTC/USDT | 2017-08-17T04:00:00+00:00 | 2026-03-01T17:45:00+00:00 | 896435 | `BTCUSDT__binance__5m__2017-08-17__2026-03-01.parquet` |
| ETH/USDT | 2017-08-17T04:00:00+00:00 | 2026-03-01T18:00:00+00:00 | 896438 | `ETHUSDT__binance__5m__2017-08-17__2026-03-01.parquet` |
| SOL/USDT | 2020-08-11T06:00:00+00:00 | 2026-03-01T18:35:00+00:00 | 583929 | `SOLUSDT__binance__5m__2020-08-11__2026-03-01.parquet` |
| XRP/USDT | 2018-05-04T08:10:00+00:00 | 2026-03-01T18:45:00+00:00 | 822056 | `XRPUSDT__binance__5m__2018-05-04__2026-03-01.parquet` |
## Schema
- `timestamp` (UTC)
- `open`
- `high`
- `low`
- `close`
- `volume`
## Notes
- Periods start from the first available Binance history per asset.
- This package is optimized for training and deterministic reload.
提供机构:
Grencape
搜集汇总
数据集介绍

构建方式
在量化金融领域,数据质量是模型性能的基石。SemantaAI-main-assets数据集采用双层标准化架构构建,其原始层(raw)直接整合了来自币安现货市场的规范化OHLCV历史数据,以5分钟为间隔,每个资产对应独立文件,确保了数据源的权威性与一致性。随后通过特征工程流程,在黄金层(gold)中衍生出围绕移动平均线的偏离度特征以及趋势与均值回归置信信号,将原始数据转化为可直接用于机器学习模型训练的富集序列,这一构建过程体现了从原始市场数据到模型就绪特征的系统性转换。
使用方法
对于使用者而言,该数据集提供了明确的使用路径。研究者可从原始层(raw)入手,利用`DATASET_INDEX`文件定位特定资产的OHLCV历史数据进行基础分析。当需要进行模型训练或策略回测时,则可直接调用黄金层(gold)中预计算好的特征与标签序列,该层数据已整合了目标变量,实现了开箱即用。通过查阅`README.md`与`METRICS.md`文档,用户可以深入理解特征定义与数据标准。这种分层设计允许用户根据需求灵活选择数据抽象级别,既支持自定义特征工程的探索,也保障了端到端建模流程的高效实施。
背景与挑战
背景概述
SemantaAI-main-assets数据集由SemantaAI团队构建,专注于金融时间序列分析领域,旨在为量化交易与资产价格预测提供结构化数据支持。该数据集整合了Binance现货市场的OHLCV历史数据,并经过特征工程处理,形成可直接用于模型训练的特征与标签层。其核心研究问题在于如何从高噪声的金融市场数据中提取稳健的预测信号,以支持趋势跟踪与均值回归等交易策略的开发,对推动基于机器学习的量化金融研究具有重要价值。
当前挑战
该数据集致力于解决金融时间序列预测中的核心挑战,即市场数据的非平稳性、高噪声特性以及信号提取的复杂性。构建过程中,团队需克服原始数据清洗、特征工程设计的困难,例如计算移动平均偏差并生成趋势置信度信号,同时确保数据的一致性与可复现性。此外,整合历史版本数据并建立标准化数据层,也涉及工程架构与版本管理的挑战。
常用场景
经典使用场景
在量化金融领域,SemantaAI数据集为算法交易模型的开发提供了核心支持。其经典使用场景在于构建和评估基于时间序列的预测模型,特别是利用黄金层(gold)中经过特征工程处理的数据,如移动平均线偏差和趋势信号,来训练机器学习或深度学习模型。这些模型旨在捕捉金融资产价格变动的规律,辅助交易策略的生成与回测,为自动化交易系统奠定数据基础。
解决学术问题
该数据集有效解决了金融时间序列分析中的若干关键学术问题。它通过提供结构化的原始OHLCV数据与精心设计的特征标签,支持对市场微观结构、价格动量以及均值回归现象的研究。学者们可以借此探索复杂市场行为的可预测性,检验不同技术指标的有效性,并推动计量经济学与机器学习在金融预测领域的交叉融合,从而深化对市场效率与风险管理的理论认识。
实际应用
在实际应用中,SemantaAI数据集直接服务于对冲基金、投资银行及金融科技公司的量化研究团队。团队利用其黄金层中整合的特征与目标变量,快速开发并部署高频交易策略、风险模型或资产配置算法。该数据集标准化了从原始数据到模型就绪数据的流程,显著提升了策略研发效率,降低了数据预处理成本,成为机构构建稳健、可解释交易系统的重要基础设施。
数据集最近研究
最新研究方向
在金融量化分析领域,semantaai-main-assets数据集凭借其标准化的OHLCV历史数据与特征工程层,正推动机器学习模型在资产价格预测中的前沿探索。当前研究聚焦于利用其丰富的移动平均偏差特征与趋势置信信号,结合深度学习架构如Transformer与LSTM,以捕捉市场微观结构中的非线性模式。热点事件如加密货币市场波动加剧,促使学者们借助该数据集的高频特性,开发稳健的风险管理与交易策略,其影响在于为量化金融提供了可复现的基准,加速了AI驱动投资决策的实证研究。
以上内容由遇见数据集搜集并总结生成



