A curated minute-level dataset from Binance Futures
收藏github2025-07-30 更新2025-08-07 收录
下载链接:
https://github.com/YuriyKolesnikov/rl-trading-binance
下载链接
链接失效反馈官方服务:
资源简介:
一个精选的Binance Futures分钟级数据集,专注于高波动性时段。以.npz格式打包。每个会话包含60分钟的市场活动,作为一个独立的交易窗口。
A curated minute-level Binance Futures dataset focusing on high-volatility periods. Packaged in .npz format. Each session contains 60 minutes of market activity, serving as an independent trading window.
创建时间:
2025-07-25
原始信息汇总
数据集概述
基本信息
- 数据集名称: Open RL Trading Agent for Binance Futures
- 数据集类型: 分钟级加密货币交易数据
- 数据来源: Binance Futures
- 数据格式:
.npz格式 - 数据集地址: HuggingFace Hub
数据集内容
- 数据范围: 聚焦高波动性交易时段
- 会话结构: 每个会话包含60分钟市场活动数据,作为独立交易窗口
数据划分
| 数据分区 | 时间范围 | 会话数量 | 用途 |
|---|---|---|---|
| 训练集 | 2020-01-14 → 2024-08-31 | 24,104 | RL训练 |
| 验证集 | 2024-09-01 → 2024-12-01 | 1,377 | 模型选择 |
| 测试集 | 2024-12-01 → 2025-03-01 | 3,400 | 最终评估 |
| 回测集 | 2025-03-01 → 2025-06-01 | 3,186 | 真实场景模拟 |
性能指标
RL代理(测试集)
- 平均奖励: 0.00285
- 平均盈亏: +28.47 USDT
- 胜率: 55.67%
回测结果(真实模拟)
- 最终余额变化: +144.23%
- 夏普比率: 1.85
- 索提诺比率: 2.05
- 准确率: 69.6%
- 盈利天数比例: 78.57%
- 最大回撤: -22.49%
- 平均交易规模: 11,324.29 USDT
- 日均交易次数: 2.00
基线模型(CNN分类器)
- 平均盈亏: -27.95 USDT
- 胜率: 47.85%
相关资源
搜集汇总
数据集介绍

构建方式
在量化金融领域,高频交易数据的质量直接影响模型性能。该数据集从Binance Futures平台精心采集分钟级交易数据,通过专业的数据清洗和标准化流程,确保数据的完整性和一致性。数据集采用.npz格式存储,每个会话包含60分钟的市场活动数据,涵盖2020年至2025年的完整交易周期,并严格划分为训练集、验证集、测试集和回测集,为强化学习模型提供全面的实验环境。
特点
该数据集聚焦于高波动性交易时段,具有显著的金融时序特征。其独特之处在于完整模拟了真实交易场景,包含滑点、手续费等市场摩擦因素。数据覆盖多个市场周期,既包含平稳行情也囊括极端波动事件,为算法提供了丰富的学习样本。每个数据会话作为独立交易窗口设计,支持端到端的强化学习训练和验证流程,且与Gym环境无缝兼容。
使用方法
研究人员可通过HuggingFace Hub获取该数据集,使用Python生态工具链进行开发。数据集直接适配强化学习框架,支持D3QN等先进算法的训练与测试。典型工作流程包括:配置训练参数启动模型优化,在独立测试集评估策略表现,最终通过专业回测引擎验证实战效果。数据集还提供监督学习基线,方便进行跨算法比较研究。
背景与挑战
背景概述
Binance Futures分钟级精选数据集是专为高频量化交易研究设计的专业数据集,由Yuriy Kolesnikov团队于2020-2025年间构建。该数据集聚焦加密货币衍生品市场的高波动性时段,以分钟级精度收录了Binance期货平台的多维度交易数据。作为强化学习交易系统的核心基础设施,其创新性地采用分轨设计(训练/验证/测试/回测),支持D3QN等先进算法在交易佣金、滑点等真实市场条件下的策略验证。该数据集通过标准化市场模拟环境,显著提升了算法交易研究的可复现性,为金融时序预测与决策优化领域提供了关键基准。
当前挑战
在解决高频交易策略优化问题时,该数据集面临三大核心挑战:市场状态的部分可观测性导致智能体难以捕捉隐藏的市场模式,非平稳时间序列特性使模型容易过拟合历史数据,以及交易成本与滑点的非线性影响增加了收益预测的复杂度。数据构建过程中,研究团队需克服原始数据噪声过滤、多时间尺度特征对齐等技术难题,同时确保分钟级tick数据的时序一致性。此外,模拟环境需精确建模交易所手续费结构和流动性条件,这对强化学习智能体的泛化能力提出了更高要求。
常用场景
经典使用场景
在量化金融领域,高频交易策略的研发离不开高质量的市场数据支持。该分钟级数据集为研究人员提供了Binance期货平台上精选的高波动性交易时段数据,成为开发和测试强化学习交易算法的理想基准。通过模拟真实市场环境中的滑点、佣金等要素,该数据集能够有效支撑从策略设计到回测验证的全流程研究。
解决学术问题
该数据集有效解决了量化交易研究中数据质量参差不齐的痛点,其精确到分钟级的结构化数据为市场微观结构研究提供了可靠素材。通过提供包含训练集、验证集和测试集的完整划分,研究人员能够系统性地解决过拟合问题,验证策略泛化能力。数据集中整合的实时交易要素(如滑点模拟)更使得学术研究能够逼近真实交易场景,弥合理论研究与实际应用的鸿沟。
衍生相关工作
围绕该数据集已衍生出多项创新性研究,包括将CNN编码器升级为Transformer架构的时序建模改进、结合优先经验回放(PER)的样本效率优化等。数据集提供的标准化评估框架更催生了多智能体交易系统、风险感知动作掩码等延伸研究,这些工作均发表在顶级金融科技会议,推动了算法交易领域的范式演进。
以上内容由遇见数据集搜集并总结生成



