Q-Variance Challenge Dataset

github2025-12-09 更新2025-12-12 收录

下载链接：

https://github.com/q-variance/challenge

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含1950-2025年间401只S&P 500股票的基准价格数据，用于Q-Variance Challenge。数据集列包括股票代码（str）、日期（date）、T（int）、sigma（float，年化波动率）、z（float，缩放后的对数收益）。由于文件大小限制，数据集分为三个部分，需合并使用。

This dataset contains benchmark price data of 401 S&P 500 stocks spanning from 1950 to 2025, intended for the Q-Variance Challenge. The dataset columns include stock ticker (str), date (date type), T (int), sigma (float, annualized volatility), and z (float, scaled logarithmic return). Due to file size constraints, the dataset is split into three parts and must be used in combination.

创建时间：

2025-11-20

原始信息汇总

数据集概述

数据集基本信息

数据集名称: The Q-Variance Challenge
数据集用途: 用于挑战赛，旨在检验连续时间模型（使用不超过三个自由参数）能否复现方差的一个关键经验属性——q-variance（q方差）。
数据内容: 包含1950年至2025年标普500指数中401只成分股的基准价格数据（剔除了日期数据少于25%的股票）。
数据格式: Parquet文件（因文件大小限制分为三个部分）。
数据列:
- ticker (str): 股票代码。
- date (date): 日期。
- T (int): 周期（以周为单位）。
- sigma (float): 年化波动率。
- z (float): 经过漂移调整后的对数价格变化缩放值（$z = x/sqrt{T}$）。

数据集文件与工具

主要数据文件:
- dataset_part1.parquet
- dataset_part2.parquet
- dataset_part3.parquet
- 组合命令：df = pd.concat([pd.read_parquet("dataset_part1.parquet"), pd.read_parquet("dataset_part2.parquet"), pd.read_parquet("dataset_part3.parquet")])
数据生成与加载工具:
- data_loader.py: 完整数据集生成器，展示数据生成方式。
- code/data_loader_csv.py: 数据集生成器，用于加载模型价格数据的CSV文件并生成Parquet文件。
基准与示例:
- baseline/baseline_fit.py: 基准模型拟合。
- notebooks/qvariance_single.ipynb: Jupyter笔记本，展示如何计算单一资产（如标普500）的q-variance。
评分工具:
- code/score_submission.py: 模型评分引擎。

挑战赛相关

挑战目标: 使用不超过三个自由参数的模型，生成模拟价格数据，使其计算出的q-variance与理论抛物线（$sigma^2(z) = sigma_0^2 + frac{(z-z_0)^2}{2}$）的拟合度达到 $R^2 geq 0.995$，且价格变化分布在 $z$ 上应具有时间不变性。
评分标准: 基于整个数据集计算一个全局 $R^2$ 值。基准q-variance抛物线（参数 $sigma_0=0.259$, $z_0 = 0.021$）的拟合 $R^2 = 0.999$，作为真实数据的代理。
提交要求:
1. 复刻本仓库。
2. 将模型输出文件 dataset.parquet（必须包含列：ticker, date, T, z, sigma）置于 submissions/your_team_name/ 目录下。
3. 在该目录下添加 README.md 文件，包含团队名称、简短模型描述和可选联系方式。
4. 发起标题为 "Submission: [Your Team Name]" 的拉取请求。
奖项: 为期一年的WILMOTT杂志订阅及技术发表机会。
截止日期: 无。

关键概念说明

q-variance (q方差): 对于一个足够大的股票价格数据集，在周期 $T$ 内的方差可由公式 $sigma^2(z) = sigma_0^2 + frac{(z-z_0)^2}{2}$ 很好地近似，其中 $z = x/sqrt{T}$，$x$ 是经漂移调整后的对数价格变化。
性质:
- 是一个可证伪的预测，其二次项系数由理论固定为0.5。
- 适用于所有周期长度 $T$。
- 涉及资产价格波动率，而非隐含波动率。
- 是一个大效应，最小方差约占总方差的一半。
- 对量化金融有影响，标志着一种由交易塑造的不同价格动态。
相关资源:
- 详细文章: Q-Variance WILMOTT article
- 交互应用: Qvar Shiny app
- 挑战赛公告: WILMOTT forum link

依赖环境

Python依赖包: yfinance, pandas, numpy, scipy, matplotlib, pyarrow
安装命令: pip install yfinance pandas numpy scipy matplotlib pyarrow

搜集汇总

数据集介绍

构建方式

在金融计量学领域，Q-Variance挑战数据集旨在验证价格波动中存在的抛物线关系。该数据集基于1950年至2025年间标普500指数中401只成分股的历史价格数据构建，排除了交易日数据缺失超过25%的股票。通过计算不同时间窗口T（1至26周）内的对数价格变化，并调整漂移项，生成了包含股票代码、日期、时间窗口、年化波动率及标准化对数收益的标准化特征。数据以Parquet格式存储，分为三个部分以便于处理，确保了数据的高效访问与整合。

特点

该数据集的核心特征在于其聚焦于q-方差这一金融实证规律，即波动率与标准化对数收益之间呈现清晰的抛物线关系。数据覆盖长达75年的跨周期观测，提供了超过300万条记录，具备较高的统计显著性。时间不变性是其关键属性，意味着抛物线关系在不同时间尺度上保持稳定，为模型验证提供了严格基准。此外，数据集经过清洗与标准化处理，减少了噪声干扰，突出了q-方差的理论预测值，即二次项系数固定为0.5，增强了其在金融动力学研究中的可证伪性。

使用方法

使用该数据集时，研究者首先需通过提供的Python脚本加载并合并Parquet文件，利用基准拟合代码复现q-方差曲线。随后，可基于自有模型生成模拟价格序列，转换为CSV格式后，调用数据加载器计算波动率与标准化收益，输出符合格式要求的Parquet文件。评分引擎将自动分箱处理z值范围，计算模拟数据与理论抛物线之间的全局R²，以评估模型性能。参与者可通过提交Pull Request，包含数据集文件与模型说明，完成挑战流程，旨在探索参数简约且时间不变的波动率建模方法。

背景与挑战

背景概述

在金融计量学领域，波动率建模一直是核心研究议题，传统扩散模型虽广泛应用，却难以捕捉市场微观结构衍生的复杂动力学特征。Q-Variance Challenge Dataset 由 Wilmott 杂志及相关研究者于2025年发起，旨在通过实证数据挑战现有连续时间模型的解释边界。该数据集基于1950年至2025年标普500指数中401只成分股的价格数据，聚焦于揭示一种称为“q-方差”的抛物线关系——即调整漂移后的对数收益与波动率之间的确定性模式。这一发现不仅对期权定价、波动率度量等量化金融基础构成直接影响，更推动了关于价格形成机制的理论探讨，促使学界重新审视交易驱动型动力学在资产定价中的作用。

当前挑战

该数据集致力于解决波动率建模中的根本挑战：如何以不超过三个自由参数的简约连续时间模型，精确复现q-方差所描述的抛物线规律。这一挑战直指传统扩散模型（如几何布朗运动）在刻画实际市场波动结构时的局限性，要求模型兼具数学简洁性与实证匹配度。在构建过程中，挑战包括处理长达75年的高频金融数据，确保数据覆盖的连续性与代表性；同时，需设计稳健的计量方法，从噪声显著的个股波动中提取出稳健的q-方差信号，并通过大规模计算验证其跨时间尺度的不变性。这些工作为检验模型的理论预测能力设立了清晰而严格的实证基准。

常用场景

经典使用场景

在金融计量学领域，Q-Variance挑战数据集为检验连续时间模型的有效性提供了基准。该数据集的核心应用场景在于验证模型能否仅用不超过三个自由参数，精确复现方差与缩放对数收益之间的抛物线关系，即q-variance现象。研究者通过加载数据集中的历史股价数据，计算不同时间窗口下的方差与z值，进而拟合抛物线曲线，评估模型在模拟价格动态时是否能够捕捉这一经验规律。

实际应用

在实际金融工程中，q-variance的识别对期权定价、风险管理和波动率预测具有深远影响。例如，在衍生品定价中，忽略q-variance可能导致隐含波动率微笑的误估，进而影响对冲策略的效力。该数据集通过提供标准化的计算框架，使从业者能够将q-variance纳入模型校准，优化波动率曲面建模，提升高频交易或资产配置中对极端价格波动的预警能力。

衍生相关工作

围绕q-variance现象，已衍生出多项探索性研究，例如基于量子跳跃模型的期权定价理论，以及修正的粗糙波动率模型尝试。这些工作试图在保持参数简约性的同时，解释方差抛物线的起源。此外，相关研究进一步探讨了q-variance与价格变化分布（q-分布）的关联，推动了交易驱动价格动力学理论的发展，为金融物理学的交叉研究提供了新视角。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集