commanderzee/1s-crypto-data
收藏Hugging Face2026-05-02 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/commanderzee/1s-crypto-data
下载链接
链接失效反馈官方服务:
资源简介:
这是一个包含6种主要加密货币(BTCUSDT、ETHUSDT、BNBUSDT、XRPUSDT、DOGEUSDT、SOLUSDT)的1秒K线(OHLCV)历史数据集,数据来源于币安(Binance Vision)。数据集每日更新,延迟不超过24小时。每个资产的数据以Parquet格式存储,包含开盘时间(Unix秒级时间戳)、开盘价、最高价、最低价、收盘价和基础资产成交量。数据集还提供了每日自动更新的Python脚本,用于从币安下载最新数据并追加到现有数据中。
This dataset contains historical 1-second kline (OHLCV) data for 6 major cryptocurrencies (BTCUSDT, ETHUSDT, BNBUSDT, XRPUSDT, DOGEUSDT, SOLUSDT) downloaded from Binance Vision. The dataset is updated daily, never more than 24 hours behind. Each assets data is stored in Parquet format, including open time (Unix timestamp in seconds), open price, high price, low price, close price, and base asset volume. The dataset also provides a Python script for daily auto-updates, which downloads the latest data from Binance and appends it to the existing data.
提供机构:
commanderzee
搜集汇总
数据集介绍

构建方式
该数据集源自Binance Vision公共档案,通过抓取六大主流加密货币(BTCUSDT、ETHUSDT、BNBUSDT、XRPUSDT、DOGEUSDT、SOLUSDT)自2019年以来的每秒K线数据构建而成。原始时间戳经标准化处理为Unix秒级整数,并经过重复条目的剔除与按时间戳升序排列的清洗流程。数据以Parquet格式按交易对分别存储,每日通过自动化脚本从Binance Vision的每秒数据端点更新,确保数据集始终与市场保持同步,滞后不超过24小时。
使用方法
用户可通过Pandas库便捷地加载该数据集。加载单一资产的全部历史数据,只需使用`pd.read_parquet`并指定对应Hugging Face数据集路径即可。若要同时分析多个交易对,可通过字典推导式循环加载不同资产的文件,实现多资产时序数据的统一管理。此外,项目提供了`scripts/daily_update.py`脚本,用户可在本地环境通过设置Hugging Face令牌运行该脚本,以手动触发数据更新,并支持通过`--symbols`参数指定需要更新的特定交易对。
背景与挑战
背景概述
在金融时间序列分析领域,高频交易数据是揭示市场微观结构与价格发现机制的关键资源。然而,公开可获取的秒级加密货币OHLCV数据极为稀缺,多数数据集仅提供分钟级或小时级粒度,难以支撑超短期波动率建模、高频策略回测及市场微观结构研究。为此,研究者开发了1s-crypto-data数据集,该数据集由CommanderZee于2023年(基于README文件的创建时间推断)在Hugging Face上发布,数据源自Binance Vision公开档案,涵盖BTC、ETH、BNB、XRP、DOGE与SOL六种主流加密货币自2019年起的逐秒K线数据。数据集以Parquet格式存储,每日自动更新,确保时效性,显著降低了高频金融研究的数据门槛,为机器学习与计量经济学在加密货币领域的应用提供了高质量的基础资源。
当前挑战
该数据集直面高频金融研究的核心挑战:首先,领域问题层面,现有公开数据集多存在粒度粗糙、覆盖不全的不足,无法满足秒级微观结构分析、高频波动率预测及算法交易策略优化等前沿需求;其次,构建过程中面临多重技术挑战,包括从Binance Vision海量原始日文件中高效解析与清洗秒级数据,处理时间戳精度差异(原始微秒/毫秒需归一化为秒),去除重复K线,保障排序一致性,以及面对每日不间断的数据流实现自动化增量更新,确保在UTC午夜后数小时内完成新数据的抓取、校验与上传。这些挑战的解决使得数据集在规模(单资产近2亿行)与质量上达到可用标准。
常用场景
经典使用场景
在数字资产市场微观结构研究中,1秒级OHLCV数据为捕捉瞬时价格波动与高频交易特征提供了绝佳素材。该数据集收录了从2019年至今六大主流加密货币——比特币、以太坊、币安币、瑞波币、狗狗币及索拉纳——的逐秒K线记录,覆盖从长期趋势到毫秒级异动的全频谱分析需求。研究者常以此作为高频预测模型的训练基准,利用细腻的价格序列构建限价订单簿模拟或波动率集聚效应检验。秒级采样频率使得原本被分钟数据平滑掉的流动性黑洞和闪崩前兆得以清晰呈现,为量化策略的回测颗粒度树立了新标杆。
解决学术问题
该数据集有效解决了加密资产领域长期缺乏统一、高频且可复现的公开基准数据之困境。传统金融高频研究依赖TAQ或Level 2数据,但在去中心化市场中,数据分散且清洗成本高昂。1s-crypto-data以标准化格式整合了六大币种,研究者可直接复现基于逐秒收益率的微观结构模型,如跨币种套利时滞分析、贝叶斯跳跃检测以及高频波动率估计。其每日自动更新与Parquet格式存储,消除了重复劳动,使得计量经济学方法在数字资产领域的验证更加可靠和透明。
实际应用
在实际应用中,该数据集支撑着从程序化交易系统压力测试到风控模型校准的多种商业场景。加密做市商利用秒级OHLCV评估其报价策略在极端行情下的表现,量化对冲基金则基于历史高频模式训练订单流预测代理。此外,交易所可据此构建市场监察仪表盘,实时比对新数据与历史分布的偏差,以便早期发现异常操纵行为。其每日自动更新管线还使它可以无缝集成到轻量级监控管道中,对资产价格突变作出秒级响应。
数据集最近研究
最新研究方向
1秒级加密货币OHLCV高频数据为市场微观结构分析与高频交易策略优化提供了前所未有的粒度支撑。该数据集囊括BTC、ETH等六大主流币种自2019年起的完整1秒K线,每日自动更新确保时效性,支撑对价格跳跃、订单簿重建、套利窗口探测等高频现象的精密建模。结合深度学习和事件驱动框架,研究者可借此捕捉毫秒级市场异常、验证有效市场假说在加密领域的局限,并推动高频流动性测度与风险预警的突破,为监管科技和智能交易系统注入新的实证基础。
以上内容由遇见数据集搜集并总结生成



