15btc_eth
收藏Hugging Face2026-02-08 更新2026-02-09 收录
下载链接:
https://huggingface.co/datasets/kaboomfox/15btc_eth
下载链接
链接失效反馈官方服务:
资源简介:
Polymarket BTC/ETH 15分钟市场订单簿数据集包含了从Polymarket的15分钟BTC和ETH预测市场中获取的实时订单簿快照数据。这些数据通过WebSocket连接收集,并结合了Chainlink预言机和Binance现货价格信息。数据集中的每一行代表一个时间点上Polymarket二元期权市场中某一方(YES或NO)的快照。市场结算基于BTC/ETH价格在15分钟内的涨跌情况,由Chainlink预言机确定。数据以Parquet分片格式存储,包含时间戳、市场进度、买卖价格、流动性、预言机价格、Binance价格、目标价格和订单不平衡等字段。该数据集适用于预测市场交易策略的回测、订单簿微观结构分析、二元期权中的价格发现动态以及预言机与现货价格差异研究等应用场景。数据收集始于2026年2月,更新频率约为每市场侧每秒一次。
This Polymarket BTC/ETH 15-minute market order book dataset comprises real-time order book snapshot data acquired from Polymarket’s 15-minute BTC and ETH prediction markets. These data are gathered via WebSocket connections and supplemented with Chainlink oracle and Binance spot price information. Each row within the dataset corresponds to a snapshot of either the YES or NO side of a Polymarket binary options market at a given timestamp. Market settlement is determined by the Chainlink oracle based on whether the BTC/ETH price rises or falls over the 15-minute interval. The dataset is stored in sharded Parquet format, containing fields including timestamp, market progress, bid and ask prices, liquidity, oracle price, Binance spot price, target price, and order imbalance. This dataset is suitable for a range of use cases, including backtesting of prediction market trading strategies, order book microstructure analysis, price discovery dynamics in binary options markets, and research on discrepancies between oracle and spot prices. Data collection commenced in February 2026, with an update frequency of roughly once per second per market side.
创建时间:
2026-02-07
原始信息汇总
Polymarket BTC/ETH 15-Minute Market Orderbook Data 数据集概述
数据集基本信息
- 数据集名称:Polymarket BTC/ETH 15-Minute Market Orderbook Data
- 许可证:mit
- 任务类别:时间序列预测
- 标签:polymarket, prediction-markets, orderbook, btc, eth, trading, chainlink, binance
- 数据规模:1M<n<10M
- 数据格式:Parquet 分片文件(shard_XXXX.parquet)
数据集描述
该数据集包含来自Polymarket 15分钟BTC和ETH预测市场的实时订单簿快照。数据通过WebSocket连接收集,并关联了Chainlink预言机和Binance现货价格。每个数据行代表Polymarket上一个15分钟二元期权市场某一侧(YES或NO)在某个时间点的快照。市场根据BTC/ETH价格在15分钟内上涨或下跌的结果进行结算,该结果由Chainlink预言机确定。
数据收集方法
- 收集方式:通过分片管理器连接到Polymarket中央限价订单簿的WebSocket连接。
- 采样频率:每个市场约每秒采样一次。
- 收集开始时间:2026年2月。
- 分片轮换:每30分钟一次。
- 更新频率:每个市场侧约每秒一次。
数据源与参考价格
- 数据源:Polymarket中央限价订单簿。
- 预言机价格:Arbitrum上的Chainlink价格馈送。
- 现货价格:Binance的BTC/USDT和ETH/USDT交易对。
数据模式(Schema)
| 列名 | 数据类型 | 描述 |
|---|---|---|
ts |
int64 | 时间戳(毫秒) |
progress |
float | 市场进度(0.0 = 开始,1.0 = 结算) |
outcome_up |
float | 如果这是UP/YES代币,则为1.0 |
outcome_down |
float | 如果这是DOWN/NO代币,则为1.0 |
best_bid |
float | 最佳买价(0.0-1.0) |
best_ask |
float | 最佳卖价(0.0-1.0) |
best_bid_size |
float | 最佳买价处的流动性(美元) |
best_ask_size |
float | 最佳卖价处的流动性(美元) |
oracle_price |
int64 | Chainlink预言机价格(美分) |
binance_price |
int64 | Binance BTC/ETH价格(美分) |
target_price |
int64 | 市场目标/执行价格(美分) |
imbalance |
float | (买量 - 卖量)/(买量 + 卖量) |
市场结算规则
市场在15分钟时根据Chainlink预言机价格结算:
- 如果
oracle_price > target_price(价格上涨),则 YES方获胜。 - 如果
oracle_price <= target_price(价格下跌或持平),则 NO方获胜。 其中target_price是市场开盘时的预言机价格。
使用案例
- 回测预测市场交易策略。
- 订单簿微观结构分析。
- 二元期权中的价格发现动态研究。
- 预言机价格与现货价格偏离研究。
数据使用示例(Python)
python import pandas as pd import glob
读取单个分片
df = pd.read_parquet("shard_0001.parquet")
读取所有分片
dfs = [pd.read_parquet(f) for f in sorted(glob.glob("shard_*.parquet"))] df = pd.concat(dfs, ignore_index=True)
仅筛选BTC数据(预言机价格 > 50,000美元)
btc = df[df["oracle_price"] > 5_000_000]
仅获取YES侧数据
yes_side = df[df["outcome_up"] == 1.0]
搜集汇总
数据集介绍

构建方式
在预测市场领域,数据集的构建往往依赖于高频实时采集技术。本数据集通过WebSocket连接至Polymarket的中央限价订单簿,并借助分片管理器以每秒一次的频率对市场数据进行采样。每条记录代表特定时刻15分钟比特币或以太坊二元期权市场中某一方向(上涨或下跌)的订单簿快照,同时整合了Chainlink预言机的价格数据以及币安现货价格,确保了数据源的多样性与实时性。数据以Parquet分片格式存储,每30分钟进行一次分片轮换,自2026年2月起持续收集,形成了规模在百万至千万条之间的时间序列数据集。
特点
该数据集的核心特点在于其精细的时间分辨率与多维度的市场信息集成。每条数据不仅包含最佳买卖报价及其对应的流动性规模,还引入了市场进度、目标价格以及买卖盘失衡度等衍生指标,为分析订单簿微观结构提供了丰富维度。特别值得注意的是,数据集同时涵盖了Chainlink预言机价格与币安现货价格,使得研究者能够深入探究去中心化预言机与中心化交易所之间的价格发现机制及潜在背离现象。此外,数据以二元期权结算逻辑为基础,明确标注了上涨与下跌方向的代币属性,适用于预测市场中的策略回测与动态行为研究。
使用方法
利用该数据集进行实证分析时,研究者可借助Python生态中的Pandas库便捷地读取和处理Parquet格式的分片文件。通过合并所有分片数据,能够构建完整的市场历史序列。在实际应用中,可根据oracle_price字段筛选特定资产(如比特币),或通过outcome_up字段分离出上涨方向的订单簿数据,以聚焦于特定市场侧的研究。该数据集主要应用于预测市场交易策略的回测、订单簿微观结构分析、二元期权价格发现动力学探索,以及预言机与现货价格差异的实证研究,为量化金融与区块链交叉领域提供了高质量的基础数据支撑。
背景与挑战
背景概述
随着去中心化金融(DeFi)和预测市场的兴起,对高频金融时间序列数据的需求日益增长。15btc_eth数据集由Polymarket平台于2026年2月启动收集,依托Chainlink预言机和Binance现货价格,专注于比特币与以太坊的15分钟二元期权市场订单簿快照。该数据集由研究机构通过WebSocket连接至中央限价订单簿实时采样构建,核心研究问题在于揭示预测市场中价格发现机制、流动性动态以及预言机与现货价格之间的偏离行为,为量化交易策略回测与市场微观结构分析提供了关键数据基础,显著推动了去中心化金融领域实证研究的发展。
当前挑战
该数据集旨在解决预测市场二元期权价格预测与订单簿动态建模的挑战,涉及市场效率检验、波动性估计以及高频交易信号提取等复杂问题。构建过程中面临多重技术障碍,包括维持WebSocket连接的稳定性以确保每秒一次的高频采样,处理Chainlink预言机与Binance现货数据之间的实时同步与一致性校验,以及管理数百万级别数据行的存储与分片优化,同时需克服去中心化环境下网络延迟与数据丢包对数据完整性的潜在影响。
常用场景
经典使用场景
在金融市场微观结构研究中,15btc_eth数据集为分析预测市场的订单簿动态提供了高粒度的时间序列数据。该数据集捕捉了Polymarket平台上15分钟比特币和以太坊二元期权市场的实时买卖盘快照,每秒采样一次,使得研究人员能够深入探究短期价格形成机制、流动性变化以及市场参与者的交易行为。通过结合Chainlink预言机价格和Binance现货价格,该数据集支持对市场效率、信息传递和价格发现过程进行实证检验,尤其在预测市场与传统现货市场的互动关系分析中具有重要价值。
衍生相关工作
围绕该数据集,学术界和工业界已衍生出多项经典研究工作。例如,基于订单簿不平衡指标的市场预测模型被提出,用于提前识别价格趋势反转;结合机器学习方法,研究者开发了高频交易信号检测框架,提升了短期价格波动的预测精度。此外,该数据集还催生了关于预言机可靠性与市场操纵的实证研究,推动了去中心化预测市场治理机制的优化。这些工作不仅深化了对加密资产市场微观结构的理解,也为金融创新提供了技术支撑。
数据集最近研究
最新研究方向
在去中心化金融与预测市场交叉领域,15btc_eth数据集凭借其高频率的订单簿快照,为探索市场微观结构提供了独特视角。当前研究聚焦于利用该数据集分析链上预言机价格与中心化交易所现货价格之间的动态偏离,揭示市场信息效率与套利机会。随着监管环境变化与机构投资者对加密衍生品兴趣增长,该数据集支持开发基于机器学习的波动率预测模型,并评估预测市场在价格发现过程中的作用,对量化交易策略优化与风险管理具有重要实践意义。
以上内容由遇见数据集搜集并总结生成



