Torch-Trade/btcusdt-microbar-v2
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/Torch-Trade/btcusdt-microbar-v2
下载链接
链接失效反馈官方服务:
资源简介:
BTCUSDT Microbar v2数据集是Binance USD-M Futures BTCUSDT的子蜡烛微观结构数据,通过六个WebSocket流连续收集。与标准的OHLCV蜡烛不同,该数据集保留了原始的事件级数据,包括每笔交易、最佳买卖价格变动、深度快照等,以便在任何时间范围内重建底层微观结构特征。v2版本修复了v1中的路由错误和数据丢失问题,确保了数据的完整性和准确性。数据集包含交易、买卖报价、深度、强平、标记价格和小型行情等多种数据表,每种数据表都有详细的模式描述。数据收集自Binance USD-M Futures的公共WebSocket流,持续在Raspberry Pi 5上收集并每日上传。数据集从2026年4月29日开始覆盖,之前的时期因修复路由问题而缺失。数据集采用MIT许可证,市场数据来源于Binance的公共WebSocket流,按原样提供,不提供金融建议,也不与Binance有关联。
BTCUSDT Microbar v2 is a sub-candle microstructure dataset for Binance USD-M Futures BTCUSDT, collected continuously over six WebSocket streams. Unlike standard OHLCV candles, this dataset preserves raw event-level data — every individual trade, best bid/ask change, depth snapshot — allowing reconstruction of underlying microstructure features at any timeframe. Version 2 fixes routing bugs and data drops present in v1, ensuring data completeness and accuracy. The dataset includes multiple tables such as trades, book ticks, depth, liquidations, mark price, and mini ticker, each with detailed schema descriptions. Data is sourced from Binance USD-M Futures public WebSocket streams, continuously collected on a Raspberry Pi 5 and uploaded daily. Coverage starts from 2026-04-29, with the immediate prior period missing due to collector downtime for routing-fix deployment. The dataset is licensed under MIT, with market data provided as-is from Binances public streams, no financial advice, and no affiliation with Binance.
提供机构:
Torch-Trade
搜集汇总
数据集介绍

构建方式
BTCUSDT Microbar v2数据集源自Binance USD-M期货合约的公开WebSocket数据流,通过分布式收集架构持续捕捉六个关键数据流:逐笔成交、最优买卖盘变动、五档深度快照、强制平仓、标记价格及24小时滚动统计。原始数据以Parquet格式按分钟分片存储于目录结构中,每一行记录均携带交易所时钟UTC毫秒级时间戳作为唯一连接键。相较于v1版本,本次更新修复了因WebSocket路由路径分隔导致的订阅数据静默丢失问题(如标记价格与强制平仓流),确保数据流的完整性与可靠性。
使用方法
通过HuggingFace Hub的`snapshot_download`接口按日期模式筛选下载Parquet分片,结合Pandas的并行读取实现高效加载。对于跨时间片聚合的微观结构特征计算,推荐使用配套开源库`binance-microbar`中的示例脚本`build_feature_dataset.py`,可直接从原始流重建包含54维特征的机器学习就绪数据集。所有文件遵循MIT开源协议,数据覆盖自2026年4月29日起连续收录(因路由修复部署导致前一日数据缺失),适用于高频交易策略回测与市场冲击模型研究。
背景与挑战
背景概述
BTCUSDT Microbar v2数据集由Torch-Trade团队于2026年4月发布,专注于加密货币市场微观结构分析,是v1版本的继任者。该数据集通过持续订阅币安USD-M期货BTCUSDT的六个WebSocket数据流,以亚蜡烛粒度记录了完整的逐笔交易、最优买卖报价变化及深度快照等高频率事件级数据,突破了传统OHLCV蜡烛图仅压缩为六个数值的局限性。其核心研究问题在于为金融计量与机器学习提供可重构任意时间尺度的微观结构特征,从而支持从订单流不平衡到清算序列等复杂信号的研究。该数据集对高频交易、市场微观结构及加密货币预测等领域具有重要影响,为复现稳健的特征工程提供了标准化且持续的原始数据源。
当前挑战
该数据集主要应对两大挑战。首先在领域问题层面,加密货币期货市场信息密度极高,传统蜡烛图压缩导致关键微观结构特征(如逐笔主动性买卖方向、资金费率动态、大额清算等)丢失,难以支撑高频预测模型与市场机制研究,数据集通过保留事件级结构从根本上解决了特征可重构性难题。其次在构建过程中,v1版本遭遇了币安USD-M期货WebSocket路由分裂的静默错误——当数据通过统一端点订阅时,属于`/market`路由的流被无提示丢弃,导致`markPrice`、`miniTicker`和`forceOrder`三个关键流完全断裂,而v2通过按路由组分别建立WebSocket连接修复了此缺陷,确保了数据的完整性与连续性。
常用场景
经典使用场景
在金融微观结构研究领域,BTCUSDT Microbar v2数据集以其亚蜡烛级别的原始事件数据为核心价值,广泛应用于高频交易策略的构建与回测。研究者可借助该数据集捕捉每一笔逐笔交易、最优买卖报价变动及深度快照,在任意时间尺度上重建微观结构特征。经典使用场景包括基于订单簿动态的流动性测度分析、跳跃风险估计以及价差序列的统计建模,为理解加密货币市场的价格发现机制提供了前所未有的数据粒度。
解决学术问题
该数据集解决了传统OHLCV蜡烛数据因信息压缩而导致微观结构细节丢失的学术困境。通过保留完整的逐笔交易记录、订单簿快照及强平、资金费率等信息流,它使得研究者能够深入探讨市场微观结构中的关键问题,如知情交易概率的度量、订单流非平衡性对价格冲击的非对称影响,以及不同极端行情下卖空挤压与多头强平事件的联动效应。这些研究不仅深化了对加密货币市场效率的认知,也为有效市场假说的实证检验开辟了新的维度。
实际应用
在实际应用层面,该数据集为加密货币量化交易系统的开发提供了坚实的数据基础。交易员可用于训练基于订单簿形态和交易流模式的强化学习模型,开发自适应做市算法。同时,数据集中的资金费率与标记价格序列,对于构建跨期套利策略、永续合约定价模型以及风险平价组合管理均有重要价值。此外,强平数据在实时风险管理系统中可作为尾部风险预警信号,提升投资组合的抗压能力。
数据集最近研究
最新研究方向
在加密货币市场微观结构分析领域,BTCUSDT Microbar v2数据集的出现标志着事件级高频数据采集技术的重要跃升。该数据集通过修复v1版本中因Binance WebSocket路由分裂导致的订阅流静默丢失漏洞,完整捕捉了包括逐笔交易、最优买卖价变动、顶部五档订单簿快照、强制平仓、标记价格与资金费率及24小时滚动统计在内的六大实时流,为构建更精确的市场微观特征工程提供了可靠数据基础。其研究前沿聚焦于利用这些高保真事件流重建任意时间跨度的微观结构因子,例如基于资金费率预测趋势反转、利用逐笔成交动态识别流动性危机前兆,以及结合清算序列与订单簿不平衡量化市场冲击。该数据集与binance-microbar工具库协同,可直接生成包含54维特征的机器学习就绪数据集,推动人工智能驱动的加密货币交易策略研究从日频模式向亚秒级事件驱动范式演进,对理解杠杆市场中信息流与价格形成机制的耦合关系具有关键支撑作用。
以上内容由遇见数据集搜集并总结生成



