five

BTC/USDT orderbook data

收藏
github2026-04-21 更新2026-05-04 收录
下载链接:
https://github.com/mznowhere/btc-orderbook-research
下载链接
链接失效反馈
官方服务:
资源简介:
38天的真实Binance BTC/USDT订单簿数据(2026-03-10至2026-04-18),包含订单簿不平衡(OBI)、累积成交量差(CVD)和点差统计等微观结构分析。数据每小时一个Parquet文件,列包括时间戳、微价格、中间价格、点差(基点)、最佳买卖价格、不同级别的订单簿不平衡和不同时间段的累积成交量差。采样率约为1 Hz,数据来源为Binance WebSocket的`@depth20@100ms`和`@aggTrade`。

38 days of real Binance BTC/USDT order book data (2026-03-10 to 2026-04-18), including microstructure analysis metrics such as Order Book Imbalance (OBI), Cumulative Volume Delta (CVD), and spread statistics. Each hour corresponds to one Parquet file, with columns including timestamp, micro-price, mid-price, spread (in basis points), best bid and ask prices, order book imbalances at different depth levels, and cumulative volume deltas over various time periods. The sampling rate is approximately 1 Hz. The data is sourced from Binance WebSocket streams `@depth20@100ms` and `@aggTrade`.
创建时间:
2026-04-18
原始信息汇总

数据集概述

本数据集为 BTC Orderbook Microstructure Research,包含 38天(2026-03-10 至 2026-04-18)Binance BTC/USDT 实时订单簿数据,采样频率约 1 Hz,来源为 Binance WebSocket @depth20@100ms@aggTrade。数据集以 Parquet 格式 按小时存储,并附带 7天的样本数据(2026-03-11 至 2026-03-17,覆盖度最高的一周)用于复现分析。


数据字段与结构

字段 说明
timestamp ISO 格式时间戳(UTC)
micro_price, mid_price 基于订单簿最优报价计算的中价和微观价格
spread_bps 买卖价差(以基点表示)
b1_price, a1_price 最优买价和最优卖价
obi_5, obi_10, obi_20 订单簿失衡指标(Top 5/10/20 档位)
cvd_60s, cvd_300s, cvd_900s 累计成交量差值(1/5/15 分钟窗口)

核心分析发现

1. 订单簿失衡(OBI)信号的衰减

  • OBI 自相关系数在滞后1阶时约为 0.64,在约 26秒 后降至噪声水平(~0.05),表明基于订单簿状态的信号窗口较短。

2. OBI 对短期收益的预测能力

  • OBI 与 10秒 前向收益的 Spearman 相关性约为 0.20(三种 OBI 水平一致),在 60秒 时衰减至约 0.075(所有 p ≈ 0,基于约 190万 次观测)。

3. 累计成交量差值(CVD)滞后价格

  • CVD 与中间价对数收益的交叉相关性在滞后 -45秒(cvd_60s)达到峰值,表明主动订单流是对价格变动的反应而非预测(在 1秒 分辨率下)。

4. 价差极窄且几乎恒定

  • Binance BTC/USDT 的价差全天维持在约 0.014 基点,日内波动范围仅 0.0005 基点。高波动期与 略窄的价差 相关(Spearman ρ = -0.19),可能反映做市商竞争加剧。

5. 网络中断的影响显著

  • 日均数据覆盖率为 57.8%,存在 562次 超过 30秒 的中断,累计缺失 308小时 的数据。计算滚动统计量前需进行中断感知的分段处理。

仓库内容

路径 内容
data/loader.py Parquet 数据加载器,支持中断检测和日期范围查询
analysis/00_data_quality.ipynb 数据质量报告、中断分布、最长连续片段分析
analysis/01_obi_analysis.ipynb OBI 分布、自相关函数、与前向收益的 Spearman 相关性
analysis/02_cvd_analysis.ipynb CVD 时间序列、价格交叉相关性、多时间尺度相关性
analysis/03_spread_liquidity.ipynb 小时级价差、波动率与价差关系、极端事件频率
figures/ 预渲染的图表图像
sample_data/ 7天 Parquet 子集(2026-03-11 至 2026-03-17)

复现方法

bash git clone https://github.com/whoareunot/btc-orderbook-research cd btc-orderbook-research python3 -m venv .venv && source .venv/bin/activate pip install -r requirements.txt python scripts/run_all.py

注意:复现是基于 sample_data/ 中的样本数据生成所有图表。


许可与引用

  • 代码:MIT 许可
  • 样本数据:CC-BY-4.0(需注明出处)
  • 引用格式:见下方 BibTeX

bibtex @misc{btc_orderbook_research_2026, title = {BTC Orderbook Microstructure Research}, author = {<Your Name>}, year = {2026}, url = {https://github.com/whoareunot/btc-orderbook-research} }


数据集特性总结

  • 用途:订单簿微观结构统计特征分析(非交易策略)
  • 特性:高采样率、多维度微观结构指标、附带数据质量分析
  • 局限性:网络中断导致数据覆盖度较低(平均 57.8%),需考虑中断影响
  • 关注要点:OBI 短期预测能力、CVD 对价格的滞后响应、极窄价差特性
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集采集自Binance交易所的BTC/USDT订单簿,通过WebSocket接口订阅@depth20@100ms和@aggTrade数据流,以约1Hz的频率记录市场微观结构信息。数据按小时存储为Parquet文件,涵盖从2026年3月10日至4月18日共38天的观测周期。每一小时的文件包含时间戳、微价与中间价、买卖价差、前五档、十档和二十档的订单簿失衡度,以及累积成交量增量等关键变量。为便于复现研究,仓库还提供了一个覆盖2026年3月11日至3月17日的一周高覆盖率样本数据集,以Parquet格式存放于sample_data目录下。
特点
该数据集的突出特色在于其高频细粒度特性,能够精准捕捉订单簿动态演化的细微变化。订单簿失衡度的自相关分析显示,信号约在26秒后衰减至噪声水平,表明其短期预测窗口极为有限。订单簿失衡度与未来10秒收益率的Spearman相关系数约为0.20,印证了其对极短期价格走势的解释力。累积成交量增量与价格对数收益率的互相关分析揭示,激进订单流通常滞后于价格变动约45秒,而非提前预测市场方向。此外,价差在交易日内维持稳定,约为0.014个基点,且高波动期间价差反而略微收窄,反映出做市商竞争加剧。
使用方法
研究人员可通过克隆GitHub仓库并安装相关依赖库后,直接运行scripts/run_all.py脚本,利用样本数据或完整数据集复现所有分析与图表。数据加载建议使用data/loader.py模块,该模块内置缺失检测和日期范围查询功能,能有效识别网络中断导致的长时间段数据缺失。分析过程分为四个独立的Jupyter Notebook,分别聚焦数据质量评估、订单簿失衡度统计特征、累积成交量增量与价格关联性,以及价差与流动性分析。所有结果以预渲染的PNG图片形式供快速查阅,无需运行完整代码即可获取研究洞察。
背景与挑战
背景概述
USDT orderbook data数据集诞生于2026年,由匿名研究者“不小心”在GitHub上发布,旨在深入剖析比特币在币安交易所上的订单簿微观结构。该数据集涵盖了2026年3月10日至4月18日共38天的高频数据,采样频率约1赫兹,记录内容包括微价、中间价、买卖价差、订单簿不平衡(OBI)及累积成交量增量(CVD)等关键微观指标。研究聚焦于订单簿信息在价格发现中的作用,尤其关注OBI对短期回报的预测能力、CVD与价格的领先滞后关系,以及价差的动态特征。该数据集为高频交易与市场微观结构研究提供了宝贵的真实世界样本,其统计发现对理解加密货币市场的流动性、信号衰减与数据质量挑战具有重要参考价值。
当前挑战
该数据集面临的核心挑战在于真实世界高频数据的复杂性与不完美性。首先,领域问题上,订单簿微观结构研究需应对信号快速衰减的难题,研究发现OBI的自相关在约26秒内降至噪声水平,预测有效窗口极为短暂,而CVD呈现出滞后于价格运动的特性,揭示了市场微观信号的时变性。其次,构建过程中面临显著的数据质量挑战,网络中断导致日均数据覆盖率仅为57.8%,存在562次超过30秒的数据缺失,总计308小时信息空白,这要求在计算滚动统计量前必须进行分段处理,以避免偏差。此外,价差超窄且近乎恒定(约0.014个基点),在高波动时期反而收窄,反映出做市商竞争与流动性供给的复杂交互,增加了对市场微观结构进行建模的难度。
常用场景
经典使用场景
该数据集记录了38天来自Binance平台的BTC/USDT实时订单簿数据,采样频率约为1赫兹,涵盖了最高20档买卖挂单价格与数量、微价与中间价、买卖价差、多档订单簿不平衡度以及多时间尺度的累积成交量增量等关键微观结构变量。经典的使用场景在于对订单簿微观结构进行统计表征,研究人员可借此观察订单簿不平衡度的自相关函数衰减模式、其与短期未来收益的斯皮尔曼相关性,以及累积成交量增量与中间价对数收益率之间的互相关关系,进而系统刻画高频环境下价格发现与流动性供给的动态规律。
衍生相关工作
该数据集的统计分析直接衍生出以López de Prado(2018)三重屏障标记法为基础的机器学习建模工作。在此数据基础上,研究者可构建集成树模型,利用订单簿不平衡度、价差、累积成交量增量等特征对短期价格方向进行预测,并以三重屏障方法标记样本标签,从而避免传统固定时间窗口标签带来的前瞻性偏差。该工作架构在统计表征与交易策略之间架起了桥梁,开创了数据驱动微观结构特征工程的标准范式。此外,后续工作还可进一步挖掘不同时间尺度下的多阶订单簿特征交互效应、网络中断事件对模型预测性能的影响,以及在合成数据与完整数据之间进行迁移学习的可能性,从而不断丰富订单簿数据在金融机器学习领域的研究生态。
数据集最近研究
最新研究方向
该数据集聚焦于比特币订单簿微观结构的实证分析,揭示了高频交易中订单簿失衡(OBI)信号的时效性——其自相关在约26秒内衰减至噪声水平,且OBI对10秒前瞻收益的Spearman相关系数达0.20,为短时价格预测提供了统计依据。同时,累积成交量差(CVD)与价格的交叉相关分析表明,激进的订单流更多是对价格变动的反应而非领先,颠覆了传统认知。此外,Binance平台BTC/USDT的价差极窄且恒定,高波动时期反而伴随更紧的价差,暗示做市商竞争加剧。数据质量方面,网络中断导致日均覆盖率仅57.8%,强调间隙感知分割是计算滚动统计的前提。这一研究不仅深化了对加密货币市场微观结构的理解,还为高频策略开发中特征工程与数据预处理提供了系统性的方法论参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作