five

Mindbyte-89/binance_btcusdt_1m_klines

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/Mindbyte-89/binance_btcusdt_1m_klines
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是Binance交易所BTC/USDT交易对的1分钟K线数据,每日从`tdw.binance_trades_complete`表中导出。数据覆盖从2020年1月1日到2026年4月14日的时间范围,共包含3303740行记录。数据集包含以下列:datetime(时间)、open(开盘价)、high(最高价)、low(最低价)、close(收盘价)、mean(均值)、std(标准差)、volume(成交量)、maker_ratio(做市商比例)、no_of_trades(交易次数)、open_liquidity(开盘流动性)、high_liquidity(最高流动性)、low_liquidity(最低流动性)、close_liquidity(收盘流动性)、liquidity_sum(流动性总和)、maker_volume(做市商成交量)、maker_liquidity(做市商流动性)。数据来源为Binance现货市场BTCUSDT交易对,时间戳为UTC时间。

This dataset contains 1-minute resolution klines for the BTC/USDT trading pair on Binance, exported daily from the `tdw.binance_trades_complete` table. The data spans from January 1, 2020, to April 14, 2026, with a total of 3,303,740 rows. The dataset includes the following columns: datetime, open, high, low, close, mean, std, volume, maker_ratio, no_of_trades, open_liquidity, high_liquidity, low_liquidity, close_liquidity, liquidity_sum, maker_volume, maker_liquidity. The data source is the Binance spot market BTCUSDT trading pair, with timestamps in UTC.
提供机构:
Mindbyte-89
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自币安现货市场BTCUSDT交易对的逐笔成交数据,通过TDW平台的`get_binance_spot_klines`查询接口,以1分钟为时间窗口进行聚合处理,每日自动化导出生成。数据涵盖了从2020年1月1日至2026年4月14日的时间跨度,共计约330万行记录,存储为Parquet文件格式。在构建过程中,数据集保留了开盘价、最高价、最低价、收盘价、成交量等核心指标,同时创新性地引入了均值、标准差、做市商比率、流动性相关变量及做市商成交量等衍生特征,但有意剔除了中位数和四分位距以简化数据结构。所有时间戳均采用协调世界时(UTC)标准,确保了跨时区应用的兼容性。
特点
该数据集最显著的特点在于其多维度的特征体系,不仅包含传统的OHLCV价格与成交量数据,还通过均值与标准差刻画了价格分布形态,利用做市商比率和做市商成交量揭示市场微观结构中的参与者行为差异。流动性相关变量如开盘流动性、最高流动性、最低流动性、收盘流动性及流动性总和,为评估市场深度与交易成本提供了量化依据。时间跨度覆盖超过6年,既囊括了加密货币市场的完整牛熊周期,又保持了1分钟的高频粒度,能够支撑从短期波动分析到长期趋势建模的多样化研究需求。数据的完整性、高频性与衍生特征的独创性,使其在量化金融与市场微观结构分析中具有独特的学术与应用价值。
使用方法
用户可直接加载Parquet文件至Python环境,利用Pandas、Dask或PyArrow等数据分析库进行高效读取与处理。数据集适用于时间序列预测、波动率建模、高频交易策略回测等场景,可通过滑动窗口技术构建特征矩阵,或结合机器学习模型预测价格方向与流动性变化。使用时需注意时间戳为UTC时区,建议根据分析需求转换为本地时间。由于数据已预先聚合为1分钟K线,可直接用于传统技术指标计算,如移动平均线、相对强弱指数等。研究人员亦可基于做市商比率与流动性变量,构建市场操纵检测或订单簿不平衡指标,拓展金融计量经济学研究的边界。
背景与挑战
背景概述
该数据集名为binance_btcusdt_1m_klines,由TDW团队基于Binance现货交易平台生成的BTCUSDT交易对1分钟K线数据,自2020年1月1日起持续更新至2026年4月14日,涵盖逾330万行记录。该数据集聚焦于高频金融时间序列分析的核心研究问题,即通过分钟级粒度捕捉比特币价格波动、流动性及交易行为特征,为量化交易、市场微观结构分析及加密货币风险管理提供基准数据资源。作为公开可用的高频加密货币数据集,它填补了传统金融数据集在数字资产领域的空白,促进了对非中心化市场动态的实证研究,并对加密货币定价建模、波动率预测及算法策略回测等领域产生重要影响。
当前挑战
该数据集所解决的领域问题在于加密货币市场的高频噪声与非线性动力学特性,传统低频金融模型难以捕捉分钟级价格突变、流动性枯竭及订单簿失衡等微观现象,因此挑战之一是设计适应非平稳、高波动市场环境的特征工程与预测框架。构建过程中面临数据完整性挑战,包括交易所API潜在的数据缺失、时间戳对齐的UTC统一标准以及异常交易行为(如清洗交易)的识别与过滤;同时需平衡计算效率与数据精度,需对原始逐笔交易数据进行聚合、统计量计算(如均值、标准差、流动性指标)并剔除中位数与四分位距以避免信息冗余,确保数据集在稳健性与可用性间取得平衡。
常用场景
经典使用场景
在金融时间序列分析领域,binance_btcusdt_1m_klines数据集凭借其高分辨率的分钟级粒度,成为量化交易策略回测与高频市场微观结构研究的标准数据源。研究人员常利用该数据集构建技术指标预测模型,例如基于开盘价、最高价、最低价及收盘价计算移动平均线或相对强弱指标,以捕捉比特币现货价格的短期波动模式。此外,数据集中包含的成交量、交易笔数及流动性指标,为分析买卖盘口深度与市场韧性提供了精细化的数据支撑,使得该数据集在因子挖掘与套利策略开发中占据核心地位。
实际应用
在实际产业应用中,该数据集被广泛部署于加密货币量化交易系统的信号生成与风险控制模块。机构交易团队通过分析分钟内价格波动标准差与买卖价差变化,实时调整做市策略中的报价深度与库存风险敞口。同时,流动性聚合与清算风险评估也依赖该数据集的分钟级成交分布,以优化滑点预测模型。此外,数据集中交易所标记的主动买卖方向(maker_ratio)为识别大额订单流向提供了线索,已被集成至程序化套利平台和链上-链下联动分析工具中,服务于对冲基金、流动性提供商及C端交易工具开发者。
衍生相关工作
围绕此数据集,学术界与工业界衍生出一系列具有影响力的研究成果与开源工具。经典工作包括利用该分钟级K线数据训练的LSTM或Transformer模型用于比特币短期价格方向预测,发表在《Expert Systems with Applications》等期刊上。同时,基于该数据集的特征工程派生出多种波动率因子(如基于平均真实波幅的改进指标),并被整合进加密货币因子库如Crypto-Factor Zoo。在工程层面,该数据集支撑了TDW查询引擎的优化实践,催生了面向高频金融数据的parquet格式存储规范和实时流式处理框架,其数据统计特征(如标准差、流动性总和)还被复用为区块链链上数据分析的基准测试案例。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作