five

Mindbyte-89/btcusdt_perp_metrics_5m_09_2020_to_04_2026

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/Mindbyte-89/btcusdt_perp_metrics_5m_09_2020_to_04_2026
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个关于BTCUSDT永续期货指标的数据集,包含了Binance UM Futures的指标数据,时间跨度为2020年9月1日至2026年4月24日,时间分辨率为5分钟。数据集包含了多种指标,如总开仓量、顶级交易者的多空比率、所有账户的多空比率等。此外,还提供了数据的使用方法、如何与1分钟OHLCV数据结合以及一些常见的衍生特征。

This is a dataset of BTCUSDT perpetual futures metrics, containing metrics data from Binance UM Futures, with a time span from September 1, 2020 to April 24, 2026, and a time resolution of 5 minutes. The dataset includes various metrics such as total open interest, top-trader long/short ratios, and all-account long/short ratios. Additionally, it provides usage methods, how to combine with 1-minute OHLCV data, and some common derived features.
提供机构:
Mindbyte-89
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自Binance统一市场(UM)每日发布的BTCUSDT永续合约聚合指标文件,通过自动抓取自2020年9月1日至2026年4月24日期间的所有历史数据文件,按时间戳进行去重与拼接,最终以统一的5分钟时间粒度存储为Parquet格式。构建过程确保了时间序列的连续性与完整性,覆盖近六年的市场数据,共计592,934行观测记录,完整度高达99.893%,且无任何缺失日期,为量化分析提供了坚实的数据基础。
特点
数据集聚焦于永续合约市场的资金流向与仓位结构,包含七项核心指标:总持仓量及其美元价值、顶级交易者账户与持仓的多空比、全账户多空比以及主动买卖成交量比率。这些指标能够揭示市场情绪与资金博弈的微观动态,例如taker主动买卖比大于1反映买盘压力,顶级交易者多空比极端值则预示仓位风险。所有数据均为原生5分钟频率,避免了重采样带来的信息失真,非常适合捕捉高频交易信号与市场微观结构变化。
使用方法
用户可通过HuggingFace Datasets库直接加载数据集,调用`load_dataset`接口获取完整DataFrame,并利用`sort_values`进行时间序排列。为与其他频率数据(如1分钟OHLCV)融合,推荐采用`pd.merge_asof`进行后向填充式连接,使每个分钟级别K线自动匹配最近5分钟指标。此外,数据集支持常见衍生特征工程,如计算持仓量的1小时变化率、顶级交易者多空比的24小时滚动Z-score,以及主动买卖成交量的指数移动平均,便于构建预测模型或交易策略的输入特征。
背景与挑战
背景概述
该数据集名为BTCUSDT永续合约市场指标(5分钟粒度),由Torch-Trade团队于2024年基于Binance官方公开数据构建,覆盖2020年9月至2026年4月期间BTCUSDT永续合约的高频聚合指标。在加密货币定量研究与算法交易领域,市场微观结构分析是理解价格发现机制与资金流向的关键环节。该数据集聚焦于未平仓合约量、大户多空比、全账户多空比以及主动买卖成交量比等核心衍生品指标,为研究者提供了从持仓行为与交易者情绪维度解析比特币价格动能的独特视角。凭借超过59万行、99.9%的采样完整度,该数据填补了高频加密衍生品字段标准化开源数据的空白,已成为量化策略回测、风险模型构建及市场微观结构实证研究的重要基础资源。
当前挑战
该数据集所解决的领域挑战在于,加密货币永续合约市场存在严重的信息不对称与数据碎片化问题。一方面,主流金融数据库缺乏统一、高频且清洗完成的持仓指标序列,研究者需从交易所零散发布的日频压缩文件中自行拼接与去重,过程繁琐且易引入对齐误差。另一方面,市场微观结构分析要求同时解析持仓变化方向(如OI增长伴随价格上涨预示多头聚集)与交易者类型信号(大户极端多空比反映拥挤交易风险),而原始数据缺乏此类衍生特征。此外,构建过程中面临时间戳对齐、跨日数据无缝拼接、5分钟标准网格的缺失值插补(仅0.107%缺失率)等技术挑战,以及需遵循Binance数据分发许可对研究用途的合理使用界定。
常用场景
经典使用场景
在加密货币量化研究与时间序列预测领域,BTCUSDT永续合约的持仓与资金流数据是洞察市场微观结构的重要依据。该数据集以五分钟为采样粒度,完整记录了自2020年9月至2026年4月期间,币安统一保证金永续合约中总持仓量、大户多空账户比与持仓比、全账户多空比以及主动买卖成交量比等核心指标。这一高保真、长跨度的时间序列数据集,天然适用于金融时间序列预测任务,研究者可基于历史持仓行为与资金流向模式,对短期价格方向、持仓压力及市场情绪进行建模,为量化策略回测与因子挖掘提供标准化基准。
实际应用
在实盘量化策略开发中,该数据集支撑起从信号生成到风险管理的全链路应用。例如,主动买卖成交量比的指数移动平均可用于构建趋势跟随策略的入场信号,大户多空比的滚动Z得分则能作为超买超卖的预警阈值。实际对冲基金或交易团队常将其与分钟级OHLCV数据融合,利用前向填充技术在更高频的时间网格上获得持仓视角,从而设计多因子择时模型。此外,持仓量的一小时变化率被用于判断市场是处于新增资金涌入还是空头回补阶段,辅助仓位管理决策,显著提升了策略在市场剧烈波动时的鲁棒性。
衍生相关工作
基于该高完整性持仓数据集,学术界与产业界已衍生出若干经典研究方向。一类工作聚焦于构建持仓衍生的流动性指标,如基于持仓量与成交量的协同关系识别市场微观结构中的信息交易概率(PIN模型)。另一类经典工作利用大户多空比的时序特征,结合机器学习模型(如LSTM或Transformer)预测加密货币的短期波动率,证实了持仓集中度对后续市场波动的预测能力。还有研究将其与链上数据结合,揭示现货与合约市场之间的套利机制,衍生出跨市场资金流分析框架。这些后续探索不仅延续了数据集的核心价值,更拓展了其在行为金融与市场设计领域的应用边界。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作