Mindbyte-89/btcusdt_perp_bookticker_features_1m_05_2023_to_03_2024
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/Mindbyte-89/btcusdt_perp_bookticker_features_1m_05_2023_to_03_2024
下载链接
链接失效反馈官方服务:
资源简介:
BTCUSDT永续期货L1 BookTicker特征(1分钟)数据集是从Binance UM Futures的bookTicker tick数据中提取的1分钟聚合特征。这些特征包括价差、买卖量不平衡、微价格和报价更新强度等,用于捕捉市场微观结构层面的信息。数据集覆盖了2023年5月16日至2024年3月31日的时间范围,每分钟一条记录,共460,265行。数据来源于Binance每月发布的bookTicker历史数据文件,但由于Binance停止发布2024年4月以后的数据,该数据集无法覆盖该时间段。数据集还提供了详细的特征解释和使用方法,包括如何与其他数据集(如OHLCV数据)进行合并。
The BTCUSDT Perpetual Futures L1 BookTicker Features (1m) dataset consists of 1-minute aggregated features derived from Binance UM Futures bookTicker tick data (best bid/ask price + quantity updates). It captures spread, top-of-book imbalance, microprice, and quote update intensity — the level-1 microstructure layer. The dataset covers the period from 2023-05-16 11:49 to 2024-03-31 23:59 (UTC) with 460,265 rows. The data is sourced from Binances monthly bookTicker historical data files, but due to Binance stopping the publication of data from April 2024 onwards, the dataset cannot cover that period. The README also provides detailed feature explanations and usage examples, including how to merge with other datasets (e.g., OHLCV data).
提供机构:
Mindbyte-89
搜集汇总
数据集介绍

构建方式
该数据集源自Binance统一保证金永续合约市场的L1级bookTicker逐笔行情数据,覆盖2023年5月16日至2024年3月31日期间。原始数据以月度压缩包形式从Binance官方数据门户获取,但受限于平台自2024年4月起停止提供历史bookTicker快照,数据仅涵盖11个月。构建流程通过逐月解压并流式处理每个文件,对每一分钟窗口内的报价更新进行聚合,计算价差、订单簿不平衡度、微观价格及报价更新频率等微观结构特征,最终剔除原始逐笔记录并串联为分钟级时间序列。
特点
数据集包含460,265行记录,分钟网格完整性达99.726%,捕捉了价差、最优买卖盘量、不平衡指标及微观价格溢价等关键流动性信号。不平衡度指标反映买方与卖方深度的相对强弱,正值预示上行压力;时间加权平均价与收盘快照的偏离程度揭示了不平衡的持续性。微观价格溢价作为有符号压力代理,其方向性为短期价格漂移提供前兆。报价更新率则量化了信息到达与波动率的关联强度,所有特征均植根于高频交易理论框架。
使用方法
用户可通过HuggingFace的`load_dataset`函数直接加载数据集,并利用`to_pandas()`将其转换为DataFrame格式。典型用法包括按时间戳排序后展开探索性分析,或与同频OHLCV数据通过时间戳内连接进行联合分析,预期在11个月重叠窗口内可获约482,000行融合数据。此外,建议在训练时动态生成衍生特征,如基于不平衡序列差分计算动量、构建价差的滚动Z-score,或统计微观价格溢价符号的持续性比例,以增强时序模型的预测能力。
背景与挑战
背景概述
在加密货币高频交易与市场微观结构研究领域,订单簿动态的量化分析是理解价格形成机制与短期价格漂移的核心。该数据集由Torch-Trade研究团队于2024年创建,基于币安统一保证金永续合约市场(BTCUSDT)的L1级书签数据,通过聚合2023年5月至2024年3月期间的毫秒级最佳买卖报价与数量流,提取出间隔为一分钟的市场微观结构特征,包括价差、订单不平衡度、微价格溢价及报价更新强度等关键指标。该数据集填补了公开可用的高频订单簿聚合特征资源空白,尤其为验证算法交易理论(如Cartea等人提出的不平衡预测模型)提供了标准化训练基准,对量化金融与机器学习交叉领域的研究具有重要推动作用。
当前挑战
该数据集所解决的领域挑战在于,加密货币市场微观结构的高频特征长期缺乏公开、完整且易用的标准化数据集,阻碍了订单簿驱动预测模型的复现与比较。具体而言,构建过程中面临的主要挑战包括:其一,币安自2024年4月起停止发布历史书签数据转储,且该月份文件为空,2024年5月后的文件返回HTTP 404错误,导致数据集仅覆盖11个月,后续更新须依赖研究者自行采集实时WebSocket流;其二,原始逐笔数据量庞大,需高效流式处理以完成分钟级聚合计算,并在丢弃原始数据的同时确保特征提取的精度与一致性;其三,数据完整性在1分钟网格下达到99.726%,但仍存在微小缺失,需在时间序列建模中妥善处理时间戳对齐与空洞填充问题。
常用场景
经典使用场景
该数据集聚焦于比特币永续合约市场的一级订单簿微观结构特征,以分钟为粒度聚合了价差、买卖盘口深度不平衡、微观价格以及报价更新频率等关键指标。在金融时间序列预测领域中,研究者常将其作为高频交易信号建模的基准数据,用于捕捉订单簿微观动态与短期价格运动之间的内在关联,尤其是在预测未来数分钟内的价格方向或波动率变化时,该数据集提供了丰富而精细的输入特征。
衍生相关工作
基于该数据集的微观结构特征,衍生出一系列高频交易领域的经典工作。例如,有研究者利用买卖盘口不平衡的动量变换(如5分钟差分)作为输入,训练长短时记忆网络预测短期价格跳跃事件;另有人在特征工程中加入滚动标准差标准化后的价差Z分数,构建了基于逻辑回归的做市商库存风险管理模型。此外,微观价格溢价符号持续性特征被用于强化学习框架中,优化执行策略的时序决策,这些工作共同拓展了订单簿数据在算法交易中的前沿应用。
数据集最近研究
最新研究方向
该数据集聚焦于比特币永续合约的微观市场结构特征,为高频交易与算法交易研究提供了精炼的L1订单簿信号。基于2023年5月至2024年3月间币安期货市场的高频bookTicker数据,数据集揭示了价差、订单簿失衡、微观价格及报价更新频率等核心微观结构指标,这些指标已被广泛用于预测短期价格漂移与波动率集聚现象。值得注意的是,由于币安自2024年4月起停止提供历史bookTicker快照,此数据集成为该时间窗口内唯一系统化的微观结构数据源,对于复现与拓展基于订单簿不平衡的信号交易策略、评估市场微观结构变化对流动性的影响,以及理解加密资产在高频环境下的定价动态具有不可替代的基准价值。
以上内容由遇见数据集搜集并总结生成



