five

Historic Stock Options Dataset

收藏
github2025-12-17 更新2025-12-31 收录
下载链接:
https://github.com/philippdubach/options-dataset-hist
下载链接
链接失效反馈
官方服务:
资源简介:
该存储库包含三个主要美国股票ETF的历史期权数据:SPY(标普500)、IWM(罗素2000)和QQQ(纳斯达克100)。数据集涵盖2008年1月至2025年12月,包括超过5300万份期权合约,包含希腊字母、隐含波动率和市场微观结构变量。

This repository contains historical options data for three major US equity ETFs: SPY (S&P 500), IWM (Russell 2000), and QQQ (Nasdaq 100). The dataset spans from January 2008 to December 2025, encompassing over 53 million option contracts, and includes Greeks, implied volatility, and market microstructure variables.
创建时间:
2025-12-16
原始信息汇总

历史股票期权数据集概述

数据集基本信息

  • 数据集名称:Historic Stock Options Dataset
  • 数据覆盖标的:SPY (SPDR S&P 500 ETF Trust)、IWM (iShares Russell 2000 ETF)、QQQ (Invesco QQQ Trust)
  • 时间范围:2008年1月至2025年12月
  • 总记录数:5340万条期权合约
  • 数据总量:压缩后3.3 GB
  • 许可证:MIT License

数据覆盖详情

标的符号 描述 记录数量 数据期间 压缩后大小
SPY SPDR S&P 500 ETF Trust 2470万 2008-2025 1.5 GB
IWM iShares Russell 2000 ETF 1340万 2008-2025 812 MB
QQQ Invesco QQQ Trust 1530万 2011-2025 965 MB

市场阶段覆盖

数据集覆盖多个市场阶段,包括2008年金融危机、2020年COVID-19波动率飙升以及随后的复苏期。

数据格式

数据以两种格式提供:

  1. SQLite数据库:使用Zstandard压缩,使用前需解压
  2. Parquet文件:按年份分区,可直接使用

SQLite格式文件详情

文件 压缩后大小 解压后大小
data/spy_options.db.zst 1.5 GB 9 GB
data/iwm_options.db.zst 812 MB 4.8 GB
data/qqq_options.db.zst 965 MB 5.6 GB

Parquet格式文件详情

目录 大小
data/parquet_spy/ 559 MB
data/parquet_iwm/ 313 MB
data/parquet_qqq/ 638 MB

数据模式

期权数据表包含以下列:

列名 类型 描述
contract_id TEXT 唯一合约标识符
symbol TEXT 标的符号
expiration TEXT 到期日
strike REAL 行权价
type TEXT 看涨或看跌期权
bid, ask REAL 最优买卖报价
volume INTEGER 日交易量
open_interest INTEGER 未平仓合约数
date TEXT 观察日期
implied_volatility REAL Black-Scholes隐含波动率
delta, gamma, theta, vega, rho REAL 期权希腊值

每个数据库还包含一个underlying_prices表,包含每日OHLCV数据。

使用示例

Parquet格式使用

python import pandas as pd

加载单年数据

df = pd.read_parquet(data/parquet_spy/options_2024.parquet)

加载所有年份数据

from glob import glob files = sorted(glob(data/parquet_spy/options_*.parquet)) df = pd.concat([pd.read_parquet(f) for f in files])

SQLite格式使用

python import sqlite3 import pandas as pd conn = sqlite3.connect(data/spy_options.db) df = pd.read_sql("SELECT * FROM options_data WHERE date >= 2024-01-01", conn)

文档与引用

  • 详细统计和方法论参见技术报告:reports/dataset_description.pdf
  • 引用格式: bibtex @misc{dubach2025options, author = {Dubach, Philipp}, title = {Historic Options Dataset: SPY, IWM, and QQQ Options 2008-2025}, year = {2025}, publisher = {GitHub}, url = {https://github.com/philippdubach/historic-options-dataset} }
搜集汇总
数据集介绍
main_image_url
构建方式
在金融衍生品研究领域,历史期权数据对于理解市场波动与定价机制至关重要。本数据集通过系统性地收集与整合三大美国主要交易所交易基金(ETF)——SPY、IWM与QQQ——的期权合约记录构建而成,时间跨度自2008年1月至2025年12月,涵盖了超过五千三百万份合约。数据来源可靠,经过清洗与标准化处理,并以SQLite与Parquet两种格式提供,其中SQLite数据库采用Zstandard压缩技术存储,需解压后使用,而Parquet文件则按年份分区,便于直接访问与分析。
特点
该数据集以其全面性与精细度著称,不仅包含期权合约的基本信息如行权价、到期日与买卖报价,还融入了隐含波动率及Delta、Gamma等希腊字母指标,为衍生品定价与风险管理研究提供了多维视角。数据覆盖了多个关键市场阶段,包括2008年金融危机、2020年新冠疫情引发的市场剧烈波动及其后的复苏期,使得研究者能够深入探究不同市场环境下的期权行为特征。此外,数据集附有标的资产的日度OHLCV价格数据,进一步增强了其分析价值与应用广度。
使用方法
对于希望利用本数据集进行实证分析的研究者而言,可根据需求灵活选择数据格式。若使用Parquet格式,可直接通过Pandas库读取特定年份或全部年份的文件,实现高效的数据加载与处理;而SQLite格式则支持通过SQL查询语句进行复杂的数据筛选与聚合操作。无论采用何种方式,用户均能便捷地访问期权合约的详细记录与希腊字母数据,从而开展关于波动率建模、期权策略回测或市场微观结构等方面的深入研究。
背景与挑战
背景概述
在金融工程与量化研究领域,历史期权数据对于衍生品定价、风险管理及市场微观结构分析具有不可或缺的价值。Historic Stock Options Dataset由Philipp Dubach于2025年创建并发布,专注于提供美国三大主要股票ETF——SPY、IWM和QQQ——自2008年至2025年的历史期权合约记录,涵盖超过5300万条数据。该数据集不仅包含期权的基本交易信息,如买卖报价、成交量与未平仓合约,还整合了隐含波动率及希腊字母等关键衍生指标,旨在支持对市场极端事件(如2008年金融危机与2020年新冠疫情波动)的深入实证研究,为金融学术界与业界提供了标准化、高颗粒度的时间序列资源,显著促进了期权市场动态与定价模型验证的相关探索。
当前挑战
在期权交易与衍生品分析中,准确捕捉非线性风险暴露与市场异常波动始终是核心难题。Historic Stock Options Dataset所应对的领域挑战在于,如何通过高频率、多变量的期权数据,有效建模隐含波动率曲面动态、识别市场情绪转折点,并在极端行情下检验风险管理策略的稳健性。构建过程中的技术挑战则体现为数据源的整合与清洗:原始期权链数据往往存在缺失值、异步更新及合约规格变更等问题,需通过算法校正价格异常并统一时间戳;同时,海量数据的存储与高效访问要求设计优化的分区结构(如按年份分区的Parquet格式)与压缩方案(如Zstandard压缩的SQLite数据库),以平衡存储成本与查询性能,确保数据集的完整性与可用性。
常用场景
经典使用场景
在金融工程与量化研究领域,历史股票期权数据集为期权定价模型与风险管理策略的验证提供了关键实证基础。该数据集以其覆盖SPY、IWM和QQQ三大美国主要ETF期权、跨越2008年至2025年的长时间序列,成为研究波动率曲面动态、市场微观结构以及极端事件下期权行为的重要资源。学者们常利用其包含的隐含波动率、希腊字母等丰富字段,对Black-Scholes模型及其扩展版本进行校准与回测,从而深入理解期权在金融危机、疫情波动等不同市场环境中的定价机制。
实际应用
在实务界,该数据集被广泛应用于机构投资者的量化策略开发与风险管理系统构建。交易团队利用其高频历史期权数据,对波动率交易策略、统计套利模型以及Delta中性对冲组合进行回测优化。风险管理部门则借助完整的希腊字母序列,对投资组合在市场极端波动情景下的风险暴露进行压力测试与情景分析。同时,该数据集也为金融科技公司开发期权定价工具、波动率指数计算以及自动化交易系统提供了可靠的底层数据支持,提升了衍生品市场的定价效率与透明度。
衍生相关工作
基于该数据集,学术界已衍生出一系列经典研究工作,主要集中在波动率建模、市场微观结构及机器学习在期权定价中的应用等领域。例如,研究者利用其长面板数据构建了高维波动率曲面动态模型,揭示了隐含波动率在金融危机期间的跳跃行为;另有工作结合期权希腊字母与交易量数据,深入分析了期权市场的信息含量与价格发现功能。近年来,随着机器学习方法的兴起,该数据集更成为训练神经网络预测隐含波动率、识别期权市场异常模式的重要基准,催生了多篇发表于金融顶级期刊的实证文献。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作