US Equity Options Dataset
收藏github2025-12-24 更新2025-12-31 收录
下载链接:
https://github.com/philippdubach/options-data
下载链接
链接失效反馈官方服务:
资源简介:
104种主要美国股票和ETF的历史期权链数据,时间跨度为2008年至2025年12月。
Historical options chain data for 104 major U.S. stocks and ETFs, spanning from 2008 to December 2025.
创建时间:
2025-12-24
原始信息汇总
US Equity Options Dataset 概述
数据集基本信息
- 数据集名称:US Equity Options Dataset
- 数据内容:104只主要美国股票和ETF的历史期权链数据及标的资产价格数据。
- 时间范围:2008年1月2日至2025年12月16日。
- 数据总量:约9.4 GB,包含约2亿行数据。
- 数据格式:Parquet文件。
- 许可协议:提供用于教育和研究目的,数据源自公开市场数据。
数据下载与访问
- 数据托管:Cloudflare R2,提供免费下载。
- 基础URL:
https://static.philippdubach.com/data/options/ - 文件结构:
- 期权链数据:
https://static.philippdubach.com/data/options/<ticker>/options.parquet - 标的资产价格数据:
https://static.philippdubach.com/data/options/<ticker>/underlying.parquet
- 期权链数据:
- 下载方式:
- 通过提供的Python脚本下载单个标的。
- 使用仓库中的Shell脚本(
./download.sh)下载全部数据。 - 使用
curl命令直接下载单个文件。
覆盖的标的(Tickers)
数据集涵盖104个符号,包括: aapl, abbv, abt, acn, adbe, aig, amd, amgn, amt, amzn, avgo, axp, ba, bac, bk, bkng, blk, bmy, brk.b, c, cat, cl, cmcsa, cof, cop, cost, crm, csco, cvs, cvx, de, dhr, dis, duk, emr, fdx, gd, ge, gild, gm, goog, googl, gs, hd, hon, ibm, intu, isrg, iwm, jnj, jpm, ko, lin, lly, lmt, low, ma, mcd, mdlz, mdt, met, meta, mmm, mo, mrk, ms, msft, nee, nflx, nke, now, nvda, orcl, pep, pfe, pg, pltr, pm, pypl, qcom, qqq, rtx, sbux, schw, so, spg, spy, t, tgt, tmo, tmus, tsla, txn, uber, unh, unp, ups, usb, v, vix, vz, wfc, wmt, xom。
数据格式详情
1. 期权链数据文件 (options.parquet)
| 列名 | 类型 | 描述 |
|---|---|---|
contract_id |
string | 唯一合约标识符 |
symbol |
string | 标的代码 |
expiration |
date | 期权到期日 |
strike |
float | 行权价 |
type |
string | call 或 put |
last |
float | 最后成交价 |
mark |
float | 中间价 (买价+卖价)/2 |
bid |
float | 买价 |
bid_size |
int | 买量 |
ask |
float | 卖价 |
ask_size |
int | 卖量 |
volume |
int | 日成交量 |
open_interest |
int | 未平仓合约数 |
date |
date | 报价日期 |
implied_volatility |
float | 隐含波动率 |
delta |
float | Delta值 |
gamma |
float | Gamma值 |
theta |
float | Theta值 |
vega |
float | Vega值 |
rho |
float | Rho值 |
in_the_money |
bool | 价内标志 |
2. 标的资产价格数据文件 (underlying.parquet)
| 列名 | 类型 | 描述 |
|---|---|---|
symbol |
string | 代码 |
date |
date | 交易日 |
open |
float | 开盘价 |
high |
float | 最高价 |
low |
float | 最低价 |
close |
float | 收盘价 |
adjusted_close |
float | 调整后收盘价 |
volume |
int | 成交量 |
dividend_amount |
float | 股息 |
split_coefficient |
float | 拆股因子 |
使用示例
- Python (pandas):加载数据并筛选特定到期日的看涨期权。
- Python (polars):直接从URL加载数据并按到期日分组计算平均隐含波动率。
- DuckDB:使用SQL直接从URL查询数据,例如按到期日分组计算看涨期权的平均隐含波动率。
部分标的数据规模示例
| 标的 | 期权数据大小 | 数据行数 |
|---|---|---|
| SPY | 608 MB | 2470万行 |
| QQQ | 384 MB | 约1500万行 |
| TSLA | 289 MB | 约1200万行 |
致谢
数据由 Philipp Dubach 处理并托管。
搜集汇总
数据集介绍

构建方式
在金融衍生品研究领域,高质量的历史期权数据对于量化分析和风险管理至关重要。US Equity Options Dataset 的构建过程系统性地整合了公开市场数据源,涵盖了2008年1月至2025年12月期间104只主要美国股票及交易所交易基金的期权链信息。数据集以Parquet格式存储,通过自动化流程收集并清洗每日期权合约的报价、交易量、持仓量及希腊字母等关键指标,同时配套提供标的资产的历史价格序列,确保了数据的一致性与完整性。所有数据经由Cloudflare R2平台托管,支持高效稳定的分布式访问。
特点
该数据集的核心特点在于其广泛覆盖与精细结构。时间跨度长达十八年,囊括了包括苹果、特斯拉及标普500 ETF在内的多种核心金融工具,为长期市场行为研究提供了丰富样本。数据结构设计严谨,每条记录均包含合约唯一标识、到期日、行权价、买卖报价、隐含波动率及Delta等衍生风险参数,并标注价内价外状态。数据集规模庞大,总体积约9.4GB,包含近两亿行记录,同时借助列式存储格式实现了查询效率与压缩性能的平衡,便于大规模历史回测与横截面分析。
使用方法
研究人员可通过多种技术路径灵活调用该数据集。数据文件可直接从静态URL下载,支持使用Python的pandas或polars库进行本地或流式加载,亦可通过DuckDB执行远程SQL查询。典型应用场景包括:基于到期日与期权类型筛选特定合约,计算不同期限的隐含波动率曲面,或结合标的资产价格进行对冲策略模拟。示例代码展示了如何快速提取近期到期的看涨期权,并进行波动率聚合分析,为学术研究与量化建模提供了即用型基础设施。
背景与挑战
背景概述
在金融工程与量化研究领域,期权市场数据对于衍生品定价、风险管理及交易策略构建具有核心价值。US Equity Options Dataset由Philipp Dubach于近年整理并公开,覆盖2008年至2025年间104只美国主要股票与交易所交易基金的期权链历史数据。该数据集旨在为学术界与业界提供标准化、易访问的高频期权信息,以支持波动率建模、市场微观结构及机器学习在金融中的应用等前沿研究,其广泛的时间跨度和标的覆盖显著提升了相关实证分析的可靠性与深度。
当前挑战
该数据集致力于解决期权定价与市场行为分析中的复杂问题,其核心挑战在于期权数据的多维度性与高频特性,如隐含波动率曲面建模需处理大量非线性和时变参数,而市场微观结构研究则需应对买卖价差、流动性及交易成本的异质性影响。在构建过程中,挑战主要源于原始数据的清洗与标准化,包括处理缺失值、纠正交易记录错误、统一不同交易所的报价格式,以及计算希腊字母等衍生指标时确保数值稳定性,这些步骤均需精细的工程处理以保障数据的一致性与准确性。
常用场景
经典使用场景
在金融工程与量化研究领域,期权数据是分析市场波动性与衍生品定价的核心资源。US Equity Options Dataset 以其覆盖2008年至2025年的历史期权链数据,为研究者提供了经典的使用场景:通过隐含波动率曲面建模,评估市场对未来价格波动的预期。该数据集支持对多种期权希腊字母(如Delta、Gamma)的深入计算,使得学者能够精准回溯测试波动率策略,或检验Black-Scholes等经典定价模型在长期市场周期中的适用性。
衍生相关工作
围绕该数据集,已衍生出多项经典研究工作,尤其在机器学习与金融交叉领域。例如,学者利用其长期期权链数据训练深度学习模型,以预测隐含波动率曲面或识别期权市场中的统计套利机会。同时,该数据集支持了对“波动率指数(VIX)预测”、“期权市场流动性”以及“高频做市策略”等主题的实证研究,推动了计算金融与实证资产定价领域的学术进展。
数据集最近研究
最新研究方向
在金融衍生品研究领域,美国股票期权数据集为量化分析与风险管理提供了关键数据支持。近期研究聚焦于利用机器学习模型预测隐含波动率曲面动态变化,结合深度学习技术捕捉市场情绪与极端事件影响,例如在2020年市场波动期间期权数据的异常模式分析。此外,高频期权链数据助力于实时套利策略优化与做市商行为研究,推动了算法交易在期权市场的应用创新。该数据集还广泛应用于衍生品定价模型校准与尾部风险度量,为金融科技领域的前沿探索奠定实证基础。
以上内容由遇见数据集搜集并总结生成



