BTC/USDT orderbook data
收藏数据集概述
本数据集为 BTC Orderbook Microstructure Research,包含 38天(2026-03-10 至 2026-04-18) 的 Binance BTC/USDT 实时订单簿数据,采样频率约 1 Hz,来源为 Binance WebSocket @depth20@100ms 和 @aggTrade。数据集以 Parquet 格式 按小时存储,并附带 7天的样本数据(2026-03-11 至 2026-03-17,覆盖度最高的一周)用于复现分析。
数据字段与结构
| 字段 | 说明 |
|---|---|
timestamp |
ISO 格式时间戳(UTC) |
micro_price, mid_price |
基于订单簿最优报价计算的中价和微观价格 |
spread_bps |
买卖价差(以基点表示) |
b1_price, a1_price |
最优买价和最优卖价 |
obi_5, obi_10, obi_20 |
订单簿失衡指标(Top 5/10/20 档位) |
cvd_60s, cvd_300s, cvd_900s |
累计成交量差值(1/5/15 分钟窗口) |
核心分析发现
1. 订单簿失衡(OBI)信号的衰减
- OBI 自相关系数在滞后1阶时约为 0.64,在约 26秒 后降至噪声水平(~0.05),表明基于订单簿状态的信号窗口较短。
2. OBI 对短期收益的预测能力
- OBI 与 10秒 前向收益的 Spearman 相关性约为 0.20(三种 OBI 水平一致),在 60秒 时衰减至约 0.075(所有 p ≈ 0,基于约 190万 次观测)。
3. 累计成交量差值(CVD)滞后价格
- CVD 与中间价对数收益的交叉相关性在滞后 -45秒(cvd_60s)达到峰值,表明主动订单流是对价格变动的反应而非预测(在 1秒 分辨率下)。
4. 价差极窄且几乎恒定
- Binance BTC/USDT 的价差全天维持在约 0.014 基点,日内波动范围仅 0.0005 基点。高波动期与 略窄的价差 相关(Spearman ρ = -0.19),可能反映做市商竞争加剧。
5. 网络中断的影响显著
- 日均数据覆盖率为 57.8%,存在 562次 超过 30秒 的中断,累计缺失 308小时 的数据。计算滚动统计量前需进行中断感知的分段处理。
仓库内容
| 路径 | 内容 |
|---|---|
data/loader.py |
Parquet 数据加载器,支持中断检测和日期范围查询 |
analysis/00_data_quality.ipynb |
数据质量报告、中断分布、最长连续片段分析 |
analysis/01_obi_analysis.ipynb |
OBI 分布、自相关函数、与前向收益的 Spearman 相关性 |
analysis/02_cvd_analysis.ipynb |
CVD 时间序列、价格交叉相关性、多时间尺度相关性 |
analysis/03_spread_liquidity.ipynb |
小时级价差、波动率与价差关系、极端事件频率 |
figures/ |
预渲染的图表图像 |
sample_data/ |
7天 Parquet 子集(2026-03-11 至 2026-03-17) |
复现方法
bash git clone https://github.com/whoareunot/btc-orderbook-research cd btc-orderbook-research python3 -m venv .venv && source .venv/bin/activate pip install -r requirements.txt python scripts/run_all.py
注意:复现是基于 sample_data/ 中的样本数据生成所有图表。
许可与引用
- 代码:MIT 许可
- 样本数据:CC-BY-4.0(需注明出处)
- 引用格式:见下方 BibTeX
bibtex @misc{btc_orderbook_research_2026, title = {BTC Orderbook Microstructure Research}, author = {<Your Name>}, year = {2026}, url = {https://github.com/whoareunot/btc-orderbook-research} }
数据集特性总结
- 用途:订单簿微观结构统计特征分析(非交易策略)
- 特性:高采样率、多维度微观结构指标、附带数据质量分析
- 局限性:网络中断导致数据覆盖度较低(平均 57.8%),需考虑中断影响
- 关注要点:OBI 短期预测能力、CVD 对价格的滞后响应、极窄价差特性




