kraken-market-data
收藏Hugging Face2025-12-18 更新2025-12-19 收录
下载链接:
https://huggingface.co/datasets/Abraxasccs/kraken-market-data
下载链接
链接失效反馈官方服务:
资源简介:
Kraken市场数据是从Kraken交易所的WebSocket API记录的实时市场数据。数据集包含多种数据类型,包括价格快照(ticker)、订单簿深度(book)、OHLC蜡烛图数据(ohlc)和单个交易执行(trade)。数据按交易对(如BTC/USD、ETH/USD等)分类,并以Parquet格式存储。数据记录频率为每30秒一次,每小时刷新一次,并延迟1小时上传以确保文件完整性。数据集适用于金融、加密货币交易和市场数据分析等领域。
创建时间:
2025-12-18
原始信息汇总
Kraken Market Data 数据集概述
数据集基本信息
- 数据集名称:Kraken Market Data
- 语言:英语
- 许可证:MIT
- 任务类别:时间序列预测
- 标签:金融、加密货币、交易、市场数据、Parquet、Kraken
- 规模类别:1K<n<10K
数据来源与内容
- 数据来源:从Kraken交易所的WebSocket API记录的实时市场数据。
- 数据内容:包含加密货币市场数据。
数据集结构
数据集文件存储在 data/ 目录下,具体结构如下:
data/crypto/ticker/:价格快照数据(包含买价、卖价、最新价、成交量等)。data/crypto/book/:订单簿深度数据(买卖盘以JSON格式存储)。data/crypto/ohlc/:OHLC蜡烛图数据。data/crypto/trade/:单个交易执行数据。
数据模式详情
Ticker 数据模式
| 列名 | 类型 | 描述 |
|---|---|---|
| ts | Int64 | 时间戳(自纪元起的毫秒数) |
| pair | String | 交易对(例如:"BTC/USD") |
| bid | Float64 | 最佳买价 |
| ask | Float64 | 最佳卖价 |
| last | Float64 | 最新交易价格 |
| volume | Float64 | 24小时成交量 |
| vwap | Float64 | 24小时成交量加权平均价格 |
| high | Float64 | 24小时最高价 |
| low | Float64 | 24小时最低价 |
| change_pct | Float64 | 24小时涨跌百分比 |
Order Book 数据模式
| 列名 | 类型 | 描述 |
|---|---|---|
| ts | Int64 | 时间戳(自纪元起的毫秒数) |
| pair | String | 交易对 |
| bids_json | String | 买盘[价格, 数量]元组的JSON数组 |
| asks_json | String | 卖盘[价格, 数量]元组的JSON数组 |
OHLC 数据模式
| 列名 | 类型 | 描述 |
|---|---|---|
| ts | Int64 | 蜡烛图时间戳(毫秒) |
| pair | String | 交易对 |
| open | Float64 | 开盘价 |
| high | Float64 | 最高价 |
| low | Float64 | 最低价 |
| close | Float64 | 收盘价 |
| volume | Float64 | 成交量 |
| vwap | Float64 | 成交量加权平均价格 |
| trades | Int64 | 交易笔数 |
Trade 数据模式
| 列名 | 类型 | 描述 |
|---|---|---|
| ts | Int64 | 交易时间戳(毫秒) |
| pair | String | 交易对 |
| side | String | "buy" 或 "sell" |
| price | Float64 | 交易价格 |
| qty | Float64 | 交易数量 |
| trade_id | Int64 | 交易所交易ID |
数据使用方式
使用 Python (datasets 库)
python from datasets import load_dataset
加载 ticker 数据
ds = load_dataset("Abraxasccs/kraken-market-data", data_dir="data/crypto/ticker")
加载特定日期数据
ds = load_dataset( "Abraxasccs/kraken-market-data", data_files="data/crypto/ticker/2025-12-17/*.parquet" )
使用 Python (pandas)
python import pandas as pd
直接读取 parquet 文件
df = pd.read_parquet("hf://datasets/Abraxasccs/kraken-market-data/data/crypto/ticker/2025-12-17/13.parquet")
使用 Rust
rust use parquet::file::reader::FileReader; // 需要先从 HuggingFace Hub 下载文件
跟踪的交易对
加密货币交易对:
- BTC/USD, BTC/EUR
- ETH/USD, ETH/EUR
- SOL/USD, SOL/EUR
- DOT/USD, DOT/EUR
- MATIC/USD, MATIC/EUR
数据记录方式
数据通过一个Rust交易机器人持续记录:
- 加密货币采样频率:每30秒
- 数据刷新间隔:每小时
- 上传延迟:1小时(确保文件完整)
搜集汇总
数据集介绍

构建方式
在加密货币交易领域,Kraken Market Data数据集通过实时捕获Kraken交易所的WebSocket API数据构建而成。数据采集过程依托于Rust交易机器人,以每30秒的频率对加密货币市场进行采样,涵盖价格快照、订单簿深度、OHLC蜡烛图及交易执行记录。每小时进行一次数据刷新,并延迟一小时上传,确保文件完整性。数据以Parquet格式存储,按日期和类型分层组织,支持高效的时间序列分析。
使用方法
利用该数据集进行金融时间序列分析时,用户可通过Hugging Face的datasets库便捷加载,指定数据目录或具体文件路径即可访问ticker等子集。例如,使用load_dataset函数加载特定日期的Parquet文件,或直接通过pandas读取远程Parquet格式数据。数据以分层目录结构组织,支持按交易对和时间范围进行筛选,便于集成到机器学习管道中,用于价格预测、波动性建模或交易策略回测。Rust用户亦可下载原始文件进行本地处理,灵活适配不同分析需求。
背景与挑战
背景概述
在金融科技与量化交易领域,高频市场数据的获取与分析构成了算法策略研发与风险管理的基石。Kraken Market Data数据集由匿名研究者或机构于近期创建,通过实时捕获Kraken交易所的WebSocket API数据,系统性地整合了多种加密货币交易对的行情快照、订单簿深度、OHLC蜡烛图及逐笔交易记录。该数据集的核心研究问题聚焦于为时间序列预测、市场微观结构分析及加密货币价格动态建模提供高质量、结构化的基准数据,其开源特性显著降低了相关领域的研究门槛,推动了金融数据科学在去中心化资产领域的实证探索。
当前挑战
该数据集旨在应对加密货币市场的高频价格预测与流动性分析等复杂问题,其挑战首先源于市场本身的极端波动性与噪声干扰,要求模型具备强大的非线性拟合与抗过拟合能力。在构建过程中,数据采集面临实时性、完整性与一致性的多重考验,例如WebSocket连接的不稳定性可能导致数据丢失,而不同交易对的数据同步与大规模并行处理亦对存储与计算架构提出较高要求。此外,订单簿数据以JSON格式嵌套存储,在保证原始信息完整的同时,增加了数据解析与高效查询的复杂性。
常用场景
经典使用场景
在加密货币交易与金融时间序列分析领域,Kraken Market Data数据集为高频市场动态研究提供了关键基础设施。该数据集通过实时捕获Kraken交易所的WebSocket API数据,整合了ticker价格快照、order book深度、OHLC蜡烛图及逐笔交易记录,其经典使用场景集中于量化交易策略的回测与优化。研究人员利用其精细的时间戳(毫秒级)和多维度交易对信息,能够模拟市场微观结构,检验动量策略、套利模型或流动性预测算法的有效性,尤其在波动剧烈的加密资产市场中,这类高频数据为探索价格发现机制与市场效率提供了实证基础。
解决学术问题
该数据集有效应对了加密货币市场研究中数据质量与一致性的挑战。传统金融数据往往在加密领域存在覆盖不全或采集频率低的问题,而Kraken Market Data以标准化Parquet格式提供连续、多层次的交易信息,解决了高频金融实证分析中数据获取的瓶颈。其意义在于支持对市场微观结构理论的验证,如订单簿动态、价格冲击模型以及波动性聚类现象的研究,同时为跨资产相关性分析、风险度量模型(如VaR)的校准提供了可靠数据源,推动了数字资产金融学向更严谨的计量经济分析方向发展。
实际应用
在实际金融科技应用中,该数据集直接服务于自动化交易系统与风险管理平台。交易机构可利用其实时ticker与order book数据构建低延迟定价引擎,实现算法交易执行优化;风控团队则依赖OHLC与交易数据监测市场异常波动,进行实时压力测试。此外,数据中涵盖的BTC/USD、ETH/EUR等多主流交易对,使得其能够支撑跨交易所套利监控、投资组合再平衡工具的开发,以及面向零售投资者的市场情绪仪表盘构建,为加密货币生态中的产品创新与运营决策提供了数据驱动支撑。
数据集最近研究
最新研究方向
在加密货币市场分析领域,Kraken Market Data数据集因其高频率的实时市场数据,正成为量化金融与算法交易研究的前沿工具。当前研究聚焦于利用其精细的订单簿和交易执行数据,结合深度学习模型如Transformer与图神经网络,以探索市场微观结构中的流动性动态与价格形成机制。随着去中心化金融的兴起和监管环境的演变,该数据集在构建高频波动率预测模型、检测市场操纵行为以及评估跨资产风险传染效应方面展现出关键价值,为理解加密资产的价格发现过程提供了实证基础。
以上内容由遇见数据集搜集并总结生成



