five

vaquum/binance_btcusdt_1m_klines

收藏
Hugging Face2026-05-02 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/vaquum/binance_btcusdt_1m_klines
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是从Binance现货市场的BTCUSDT交易对中导出的1分钟分辨率K线数据。数据通过`get_binance_spot_klines`函数从`origo.binance_daily_spot_trades`表中每日导出。最新快照文件包含了从2020年1月1日到2026年5月1日的数据,共3328220行,包含datetime、open、high、low、close等17个列。数据源是Binance spot BTCUSDT,时间戳为UTC时间,且故意省略了median和iqr列。

This dataset is exported daily from `origo.binance_daily_spot_trades` using `get_binance_spot_klines` at 1-minute resolution. The latest snapshot includes data from 2020-01-01 to 2026-05-01, with 3328220 rows and 17 columns such as datetime, open, high, low, close, etc. The source market is Binance spot BTCUSDT, timestamps are in UTC, and median and iqr are intentionally omitted from the exported Parquet snapshot.
提供机构:
vaquum
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自Binance现货市场BTCUSDT交易对的逐笔交易数据,经由`origo.binance_daily_spot_trades`数据表,通过`get_binance_spot_klines`函数以1分钟为分辨率进行每日导出。最终以Parquet格式封装为单一快照文件,涵盖从2020年1月1日至2026年5月3日的历史区间,共计约333万行记录。在构建过程中,有意省略了中位数和四分位距字段,以优化存储与传输效率。
特点
数据集具有高频率、长跨度与多维度特性。时间戳严格采用UTC时区,确保全球用户时间一致性。字段设计丰富,不仅包含传统OHLCV价格与成交量数据,还引入均值、标准差、买卖比例、交易笔数、流动性指标及做市商相关统计,为量化分析提供更精细的市场微观结构信息。快照式存储便于快速加载与分布式处理,适合大规模回测与实时策略验证。
使用方法
用户可直接通过Pandas、Dask或PySpark等工具读取Parquet文件,利用`datetime`列作为时间索引进行滑动窗口计算或事件驱动分析。支持基于开盘价、收盘价及流动性指标构建技术指标与交易信号。适用于高频策略回测、流动性建模、市场冲击成本估算等场景。建议结合时间序列数据库或流处理框架,实现实时数据更新与增量学习。
背景与挑战
背景概述
比特币作为加密货币市场的风向标,其价格序列的精确分析对量化交易、风险管理及市场微观结构研究具有关键意义。binance_btcusdt_1m_klines数据集由Binance交易所每日从内部现货交易记录中导出,采用一分钟分辨率,覆盖2020年1月1日至2026年5月3日的完整时间跨度,共计超过333万条数据行。该数据集由加密货币数据基础设施机构Origo维护,旨在为高频金融研究提供标准化的价格与流动性指标。其核心研究问题聚焦于比特币现货市场的动态特征,包括价格波动、交易深度及做市商行为。通过提供开盘价、最高价、最低价、收盘价、均值、标准差、成交量及多维度流动性指标,该数据集成为机器学习预测模型、事件驱动策略及市场有效性检验的重要基准,对实证金融领域产生了深远影响。
当前挑战
该数据集所解决的领域问题在于比特币现货市场的复杂性与非平稳性。传统金融时间序列分析方法难以适应加密货币市场的高波动性与不规律交易行为,数据集通过分钟级粒度与多维度统计量(如均值、标准差、流动性聚合)为捕捉微观结构特征提供了基础。构建过程中面临的核心挑战包括:一是数据清洗与异常值剔除,需处理交易所原始交易数据中的因网络延迟或订单簿快照不一致导致的价格跳变;二是时间戳标准化,确保UTC时区下跨天边界的连续性与日内周期性分析的可靠性;三是流动性指标的构建,需从逐笔成交数据中聚合出买卖方向比率、挂单深度与成交滑点,这要求高效的内存计算与稳定的导出流程。此外,数据集主动省略中位数与四分位距以降低冗余,但需平衡信息完整性与存储效率之间的矛盾。
常用场景
经典使用场景
在金融时间序列分析领域,binance_btcusdt_1m_klines数据集凭借其高频率和丰富字段,成为加密货币市场微观结构研究的理想数据源。该数据集包含自2020年1月1日起至2026年5月3日期间,以分钟为粒度的BTCUSDT现货交易K线数据,涵盖开盘价、最高价、最低价、收盘价、成交量、成交笔数等核心量价指标,并额外纳入流动性指标与做市商比例等深度信息。研究者可借助该数据集进行价格发现机制分析、波动率建模、高频交易策略回测等经典工作,其长达六年的历史记录为训练长时序预测模型提供了充裕样本,同时也为量化交易算法的稳健性验证奠定了坚实基础。
衍生相关工作
依托该数据集的丰富字段和长时序特征,衍生出一系列具有代表意义的经典研究工作。其中之一是基于时间卷积网络与注意力机制的分钟级价格走势预测模型,利用开盘价、最高价、最低价、收盘价及成交量构建多维特征,在短周期趋势预判上取得显著提升。另一项工作聚焦于流动性指标与做市商比例在波动率预测中的增量信息挖掘,通过对比传统GARCH模型与嵌入高频流动性变量的扩展模型,揭示了订单簿深度对价格跳跃风险的预警能力。此外,有研究者将分钟K线的统计特征与交易行为序列结合,设计了识别市场操纵模式的异动检测框架,为加密市场监管工具的开发提供了方法论参考。
数据集最近研究
最新研究方向
高频金融时间序列分析与市场微观结构前沿探索
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作