taut-arb-backtest
收藏github2026-02-14 更新2026-02-15 收录
下载链接:
https://github.com/ADnocap/taut-arb-backtest
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是为加密货币预测市场套利回测而构建的,包含Polymarket和Deribit的数据,涵盖了BTC、ETH、SOL、XRP等资产的30,180个已结算预测市场,包含1.1M价格观察值。数据集时间覆盖范围为2025年4月至2026年2月。
This dataset is constructed for arbitrage backtesting in cryptocurrency prediction markets, containing data from Polymarket and Deribit. It includes 30,180 settled prediction markets covering assets such as BTC, ETH, SOL, XRP and others, with a total of 1.1 million price observations. The time span of the dataset ranges from April 2025 to February 2026.
创建时间:
2026-02-12
原始信息汇总
数据集概述
数据集基本信息
- 数据集名称: Taut-Arb-Backtest
- 核心用途: 加密货币预测市场套利的回测框架,用于比较Polymarket价格与基于Deribit衍生品数据得出的模型概率。
- 覆盖资产: BTC, ETH, SOL, XRP
- 时间覆盖范围: 2025年4月至2026年2月
- 市场数据: 包含30,180个已结算的预测市场,共计110万条价格观测记录。
数据内容与文件
预收集的数据集可通过GitHub Release获取,涵盖2025年4月至2026年2月。
| 文件 | 内容描述 | 原始大小 | 下载链接 |
|---|---|---|---|
backtest_data.db.gz |
原始交易级别数据(10张表,约1200万行) | 2.4 GB | https://github.com/ADnocap/taut-arb-backtest/releases/download/v2.0-data/backtest_data.db.gz |
backtest_sample.db.gz |
用于回测的小时级快照数据(9张表,包含DVOL/VoV) | 1.5 GB | https://github.com/ADnocap/taut-arb-backtest/releases/download/v2.0-data/backtest_sample.db.gz |
文件解压命令: bash gunzip backtest_data.db.gz gunzip backtest_sample.db.gz
数据来源
所有数据源均为公开API,无需密钥。
| 数据源 | 端点 | 数据描述 |
|---|---|---|
| Polymarket CLOB | clob.polymarket.com |
市场发现、价格历史(游标分页) |
| Polymarket Gamma | gamma-api.polymarket.com |
活跃市场(偏移分页) |
| Goldsky GraphQL | api.goldsky.com |
为约30-50%的已结算市场提供价格回填 |
| Deribit History | history.deribit.com |
含隐含波动率的期权交易、定期期货、1小时OHLCV数据 |
| Deribit Main | www.deribit.com |
8小时永续合约资金费率、DVOL指数 |
数据处理架构
- 收集: 通过6个无认证的API进行异步数据收集。
- 存储: 使用SQLite存储原始数据(10张表)并生成快照数据库(9张表)。
- 分析: 包括隐含波动率曲面重建、远期曲线插值、Rogers-Satchell已实现波动率计算、资金费率漂移估计、DVOL计算(Carr-Madan方法)以及波动率的波动率(VoV)计算。
- 回测: 对比模型概率与市场价格,进行边缘计算和盈亏模拟。
样本数据与图表
sample/目录包含预构建的SQLite数据库及诊断图表,详细模式文档和查询示例见sample/DATA_GUIDE.md。
包含的图表示例:
- 资产价格(OHLCV)
- 按方向类型划分的30,180个市场
- 隐含波动率微笑(BTC看涨期权示例)
- 资金费率
- DVOL计算值与官方值对比(BTC)
- 波动率的波动率(VoV)时间序列
项目状态
- 数据收集管道: 已完成
- 样本数据库构建器: 已完成
- DVOL计算: 已完成
- VoV计算: 已完成
- 分析引擎: 进行中
- 回测器: 计划中
搜集汇总
数据集介绍

构建方式
在加密货币预测市场套利研究领域,taut-arb-backtest数据集通过系统化的多源数据采集与融合框架构建而成。该框架异步调用六个公开API接口,无需身份验证,分别从Polymarket的CLOB和Gamma端点获取预测市场的发现信息与实时价格,并利用Goldsky GraphQL服务填补历史价格空缺。同时,从Deribit的历史与主站接口同步获取期权交易、期货、OHLCV数据、资金费率以及DVOL波动率指数。原始数据经结构化处理后存储于SQLite数据库,并通过隐含波动率曲面重建、远期曲线插值、罗杰斯-萨切尔已实现波动率计算、资金费率漂移估计以及基于Carr-Madan方法的DVOL与波动率之波动率(VoV)等一系列量化分析模型进行深度加工,最终形成适用于套利回测的标准化时间序列快照。
特点
该数据集覆盖了比特币、以太坊、Solana和瑞波币四种主流加密资产,时间跨度从2025年4月至2026年2月,囊括了30,180个已结算预测市场及其约110万次价格观测记录。其核心特点在于实现了预测市场与衍生品市场之间的概率对标:一方面聚合了Polymarket上基于群体智慧的隐含概率价格,另一方面则通过Deribit的期权与期货数据推导出模型概率,从而精准识别两者间的定价偏差。数据集不仅提供原始交易级数据,还包含按小时采样的分析快照,并集成了DVOL指数计算与波动率之波动率(VoV)等高级风险指标,为市场效率研究和套利策略验证提供了高维度、多频率的完整数据基础。
使用方法
研究者可通过下载预编译的SQLite数据库文件快速接入数据,其中包含完整原始数据与轻量化的样本数据库。使用前需解压缩文件,并参考样本目录中的详细模式指南与查询示例。数据集支持完整的端到端复现流程:用户可依据项目提供的命令行工具,按步骤顺序执行数据采集、验证与样本构建。采集过程具有幂等性,支持断点续传,确保数据获取的鲁棒性与可重复性。在分析层面,数据集可直接用于构建套利信号,通过对比模型概率与市场价格的边缘计算,模拟交易策略的盈亏表现,进而推动加密货币预测市场定价效率与套利机会的实证研究。
背景与挑战
背景概述
在金融科技与加密货币领域,预测市场与衍生品定价的交叉研究正逐渐成为量化分析的前沿。taut-arb-backtest数据集由独立研究人员或团队于2025年至2026年间构建,旨在通过系统化框架探索加密货币预测市场中的套利机会。该数据集整合了Polymarket预测市场的价格数据与Deribit交易所的期权、期货及资金费率等多源信息,核心研究问题聚焦于模型推导概率与市场隐含价格之间的偏差识别,从而为自动化交易策略提供实证基础。其覆盖BTC、ETH、SOL、XRP四大资产,包含超过三万条已结算市场记录,为加密货币市场的定价效率与风险管理研究提供了高粒度的时间序列数据支撑。
当前挑战
该数据集致力于解决加密货币预测市场与衍生品市场间的跨市场套利问题,其核心挑战在于多源异构数据的实时对齐与概率模型的精确校准。预测市场价格的离散性与期权隐含波动率曲面的连续重构之间存在显著的计算复杂度,而资金费率漂移与波动率之波动(VoV)的估计进一步增加了模型的不确定性。在构建过程中,研究者需克服公开API的数据获取限制与历史回填的覆盖缺口,例如约30-50%的已结算市场价格需依赖第三方服务补全。同时,DVOL指数的高频计算与官方数据的相关性验证要求严格的数值方法,以确保衍生品定价模型在套利模拟中的稳健性。
常用场景
经典使用场景
在加密货币预测市场与衍生品定价的交叉领域,taut-arb-backtest数据集为量化套利策略的回测提供了关键基础设施。该数据集通过整合Polymarket预测市场的价格数据与Deribit期权、期货及资金费率等衍生品信息,构建了模型隐含概率与市场交易价格之间的对比框架。研究人员能够利用这一框架,系统性地识别并模拟交易那些因市场定价偏差而产生的套利机会,从而在历史数据中验证策略的有效性与稳健性。
解决学术问题
该数据集有效解决了金融市场中关于信息效率与定价偏差的核心学术问题。通过将预测市场的群体智慧与衍生品市场的模型定价进行交叉验证,它为研究市场有效性、价格发现机制以及行为金融学中的认知偏差提供了实证基础。其意义在于构建了一个连接不同市场结构的统一分析平台,使得学者能够量化评估市场间的信息传递效率与套利边界,推动了金融工程与计算金融领域的理论发展。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在波动率建模与跨市场套利策略的优化上。例如,基于其提供的DVOL指数与波动率的波动率(VoV)数据,研究者发展了更精确的加密货币波动率预测模型。同时,结合期权隐含波动率曲面重建与远期曲线插值技术,多项研究改进了套利边缘的计算方法,并探索了在高频环境下利用资金费率漂移进行统计套利的策略,这些工作显著丰富了加密货币金融工程的学术文献与实践案例。
以上内容由遇见数据集搜集并总结生成



