five

A curated minute-level dataset from Binance Futures

收藏
github2025-07-30 更新2025-08-07 收录
下载链接:
https://github.com/YuriyKolesnikov/rl-trading-binance
下载链接
链接失效反馈
官方服务:
资源简介:
一个精选的Binance Futures分钟级数据集,专注于高波动性时段。以.npz格式打包。每个会话包含60分钟的市场活动,作为一个独立的交易窗口。

A curated minute-level Binance Futures dataset focusing on high-volatility periods. Packaged in .npz format. Each session contains 60 minutes of market activity, serving as an independent trading window.
创建时间:
2025-07-25
原始信息汇总

数据集概述

基本信息

  • 数据集名称: Open RL Trading Agent for Binance Futures
  • 数据集类型: 分钟级加密货币交易数据
  • 数据来源: Binance Futures
  • 数据格式: .npz格式
  • 数据集地址: HuggingFace Hub

数据集内容

  • 数据范围: 聚焦高波动性交易时段
  • 会话结构: 每个会话包含60分钟市场活动数据,作为独立交易窗口

数据划分

数据分区 时间范围 会话数量 用途
训练集 2020-01-14 → 2024-08-31 24,104 RL训练
验证集 2024-09-01 → 2024-12-01 1,377 模型选择
测试集 2024-12-01 → 2025-03-01 3,400 最终评估
回测集 2025-03-01 → 2025-06-01 3,186 真实场景模拟

性能指标

RL代理(测试集)

  • 平均奖励: 0.00285
  • 平均盈亏: +28.47 USDT
  • 胜率: 55.67%

回测结果(真实模拟)

  • 最终余额变化: +144.23%
  • 夏普比率: 1.85
  • 索提诺比率: 2.05
  • 准确率: 69.6%
  • 盈利天数比例: 78.57%
  • 最大回撤: -22.49%
  • 平均交易规模: 11,324.29 USDT
  • 日均交易次数: 2.00

基线模型(CNN分类器)

  • 平均盈亏: -27.95 USDT
  • 胜率: 47.85%

相关资源

搜集汇总
数据集介绍
main_image_url
构建方式
在量化金融领域,高频交易数据的质量直接影响模型性能。该数据集从Binance Futures平台精心采集分钟级交易数据,通过专业的数据清洗和标准化流程,确保数据的完整性和一致性。数据集采用.npz格式存储,每个会话包含60分钟的市场活动数据,涵盖2020年至2025年的完整交易周期,并严格划分为训练集、验证集、测试集和回测集,为强化学习模型提供全面的实验环境。
特点
该数据集聚焦于高波动性交易时段,具有显著的金融时序特征。其独特之处在于完整模拟了真实交易场景,包含滑点、手续费等市场摩擦因素。数据覆盖多个市场周期,既包含平稳行情也囊括极端波动事件,为算法提供了丰富的学习样本。每个数据会话作为独立交易窗口设计,支持端到端的强化学习训练和验证流程,且与Gym环境无缝兼容。
使用方法
研究人员可通过HuggingFace Hub获取该数据集,使用Python生态工具链进行开发。数据集直接适配强化学习框架,支持D3QN等先进算法的训练与测试。典型工作流程包括:配置训练参数启动模型优化,在独立测试集评估策略表现,最终通过专业回测引擎验证实战效果。数据集还提供监督学习基线,方便进行跨算法比较研究。
背景与挑战
背景概述
Binance Futures分钟级精选数据集是专为高频量化交易研究设计的专业数据集,由Yuriy Kolesnikov团队于2020-2025年间构建。该数据集聚焦加密货币衍生品市场的高波动性时段,以分钟级精度收录了Binance期货平台的多维度交易数据。作为强化学习交易系统的核心基础设施,其创新性地采用分轨设计(训练/验证/测试/回测),支持D3QN等先进算法在交易佣金、滑点等真实市场条件下的策略验证。该数据集通过标准化市场模拟环境,显著提升了算法交易研究的可复现性,为金融时序预测与决策优化领域提供了关键基准。
当前挑战
在解决高频交易策略优化问题时,该数据集面临三大核心挑战:市场状态的部分可观测性导致智能体难以捕捉隐藏的市场模式,非平稳时间序列特性使模型容易过拟合历史数据,以及交易成本与滑点的非线性影响增加了收益预测的复杂度。数据构建过程中,研究团队需克服原始数据噪声过滤、多时间尺度特征对齐等技术难题,同时确保分钟级tick数据的时序一致性。此外,模拟环境需精确建模交易所手续费结构和流动性条件,这对强化学习智能体的泛化能力提出了更高要求。
常用场景
经典使用场景
在量化金融领域,高频交易策略的研发离不开高质量的市场数据支持。该分钟级数据集为研究人员提供了Binance期货平台上精选的高波动性交易时段数据,成为开发和测试强化学习交易算法的理想基准。通过模拟真实市场环境中的滑点、佣金等要素,该数据集能够有效支撑从策略设计到回测验证的全流程研究。
解决学术问题
该数据集有效解决了量化交易研究中数据质量参差不齐的痛点,其精确到分钟级的结构化数据为市场微观结构研究提供了可靠素材。通过提供包含训练集、验证集和测试集的完整划分,研究人员能够系统性地解决过拟合问题,验证策略泛化能力。数据集中整合的实时交易要素(如滑点模拟)更使得学术研究能够逼近真实交易场景,弥合理论研究与实际应用的鸿沟。
衍生相关工作
围绕该数据集已衍生出多项创新性研究,包括将CNN编码器升级为Transformer架构的时序建模改进、结合优先经验回放(PER)的样本效率优化等。数据集提供的标准化评估框架更催生了多智能体交易系统、风险感知动作掩码等延伸研究,这些工作均发表在顶级金融科技会议,推动了算法交易领域的范式演进。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作