p2-etf-rough-path-forecaster-results

Hugging Face2026-04-15 更新2026-04-16 收录

下载链接：

https://huggingface.co/datasets/P2SAMAPA/p2-etf-rough-path-forecaster-results

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含ROUGH-PATH-FORECASTER引擎的输出结果，主要用于ETF回报预测。数据集采用签名核方法和Log-ODE（对数神经控制微分方程）进行预测，结合深度为2、3和4的加权组合。数据涵盖固定收益/商品和股票两大类，其中固定收益/商品类包括7个标的（如TLT、LQD等），股票类包括14个标的（如QQQ、XLK等）。数据集提供两种训练模式：固定数据集（2008年至2026年YTD，按80%训练、10%验证、10%测试划分）和收缩窗口模式（17个窗口，每个窗口独立模型）。输出结构包括模型文件、预测结果、实际回报和性能指标（年化回报率、夏普比率、最大回撤等），分别存储在fi/和equity/目录下。数据集采用MIT许可，最后更新于2026年4月15日。

创建时间：

2026-04-13

原始信息汇总

P2 ETF Rough Path Forecaster Results 数据集概述

数据集基本信息

数据集名称: P2 ETF Rough Path Forecaster Results
任务类别: 时间序列预测、量化金融
标签: 粗糙路径、签名核、Log-ODE、ETF预测、量化金融
许可证: MIT
最后更新: 2026-04-15T13:47:24.884420

数据集内容描述

本数据集包含来自 ROUGH-PATH-FORECASTER 引擎的输出结果。

引擎描述

使用签名核方法和Log-ODE进行ETF收益预测。

签名核: 采用带动态截断的诺依曼级数展开
Log-ODE: 在log-signature空间上的神经控制微分方程
集成: 深度为2、3和4的加权组合

投资组合范围

固定收益/大宗商品

基准: AGG
标的 (7个): TLT, LQD, HYG, VNQ, GLD, SLV, VCIT

股票

基准: SPY
标的 (14个): QQQ, XLK, XLF, XLE, XLV, XLI, XLY, XLP, XLU, XLRE, XLB, GDX, XME, IWM

训练模式

固定数据集

周期: 2008年 → 2026年至今
分割: 80% 训练集，10% 验证集，10% 测试集
模型: 在所有可用数据上训练的单一模型

收缩窗口 (17个窗口)

起始年份: 2008年至2024年
结束年份: 2026年至今 (所有窗口)
模型: 每个窗口独立模型
评分: 跨窗口共识评分

共识权重

60% 年化收益率
20% 夏普比率
20% (-)最大回撤

输出结构

数据集包含 fi/ (固定收益/大宗商品) 和 equity/ (股票) 两个主要目录，每个目录下结构相同：

fixed/ 目录 (固定数据集模式):
- model.pkl # 训练好的模型
- predictions.parquet # 测试集预测
- actuals.parquet # 测试集实际收益
- metrics.json # 性能指标
shrinking/ 目录 (收缩窗口模式):
- model_window_*.pkl # 每个窗口的模型
- window_results.parquet # 窗口元数据
- consensus.parquet # 共识选择
- window_picks.parquet # 每个窗口的选择
- window_metrics.parquet # 每个窗口的性能

根目录包含 metadata.json 文件。

性能指标

指标	描述
annualized_return_pct	年化收益率百分比
annualized_vol_pct	年化波动率百分比
sharpe_ratio	风险调整后收益 (夏普比率)
max_drawdown_pct	最大峰谷跌幅百分比
hit_rate_pct	正收益天数百分比
alpha_vs_benchmark_pct	相对于基准的超额收益百分比

搜集汇总

数据集介绍

构建方式

在量化金融领域，时间序列预测的精度往往依赖于对市场复杂动态的捕捉。本数据集通过ROUGH-PATH-FORECASTER引擎构建，该引擎融合了签名核方法与Log-ODE技术，专门用于交易所交易基金（ETF）的收益预测。签名核采用诺依曼级数展开并实施动态截断，而Log-ODE则在日志签名空间上应用神经控制微分方程。引擎采用集成策略，加权结合了深度为2、3和4的模型输出，以增强预测的稳健性。数据生成涵盖两种训练模式：固定数据集模式使用2008年至2026年迄今的全部数据，按8:1:1划分训练、验证和测试集；收缩窗口模式则构建了17个独立的时间窗口，每个窗口从2008年至2024年间不同起始年份开始，均终止于2026年迄今，并训练独立模型，最终通过跨窗口共识评分整合结果。

特点

本数据集的核心特征体现在其多维度的结构与专业的性能评估体系。数据覆盖固定收益/商品与股票两大资产类别，分别以AGG和SPY作为基准，包含TLT、QQQ等21只具体ETF标的，提供了广泛的市场代表性。输出结构组织清晰，分为固定训练与收缩窗口两大目录，各自包含训练模型、预测结果、实际收益及性能指标文件，便于用户按需调用。性能指标设计全面，不仅涵盖年化收益率、波动率、夏普比率等传统风险收益度量，还包括最大回撤、命中率以及与基准相比的超额收益（Alpha），为模型评估提供了严谨的量化基础。共识权重机制进一步将年化收益率、夏普比率和负向最大回撤以6:2:2的比例整合，导向最终的投资选择。

使用方法

对于研究人员与量化分析师而言，本数据集为验证基于粗糙路径理论的预测模型提供了直接的应用平台。用户可首先通过解析`metadata.json`了解数据集全局信息，继而根据研究目标进入`fi/`或`equity/`子目录。若关注单一模型的整体性能，可加载`fixed/`目录下的`model.pkl`、`predictions.parquet`及`metrics.json`进行分析与回测。若旨在研究模型在时间推移中的稳定性与共识形成过程，则应使用`shrinking/`目录下的资源，通过`window_results.parquet`和`window_metrics.parquet`分析各窗口表现，并参考`consensus.parquet`获取加权共识结果。所有性能指标均已标准化计算，用户可直接用于模型比较、策略回测或作为新预测方法的基准参照。

背景与挑战

背景概述

在量化金融领域，时间序列预测始终是核心研究议题，尤其针对交易所交易基金（ETF）的收益预测，其复杂性源于市场的高维非线性动态。P2 ETF Rough Path Forecaster Results数据集由专注于金融工程与机器学习交叉领域的研究团队于2026年创建，旨在通过粗糙路径理论、签名核方法及Log-ODE模型，提升ETF收益预测的精度与稳健性。该数据集整合了固定收益、商品与股票两大资产类别，涵盖2008年至2026年的历史数据，采用固定数据集与收缩窗口两种训练模式，为金融时间序列分析提供了创新的方法论框架，推动了签名方法在实证金融中的应用，对资产配置与风险管理研究具有显著影响力。

当前挑战

该数据集致力于解决金融时间序列预测中的核心挑战，即如何在高噪声、非平稳的市场环境中，有效捕捉资产收益的复杂依赖结构与长期动态。具体挑战包括：签名核的诺依曼级数展开需动态截断以平衡计算效率与表达力；Log-ODE模型在日志签名空间中的神经控制微分方程要求精细的数值稳定性处理；多深度集成与收缩窗口共识加权机制需避免过拟合，并确保跨经济周期的泛化能力。在构建过程中，挑战涉及大规模异构ETF数据的时序对齐与清洗，以及在高维签名特征空间中保持模型的可解释性，同时需处理金融数据中常见的尖峰、厚尾等统计特性，这对算法设计与计算资源提出了较高要求。

常用场景

经典使用场景

在量化金融领域，时间序列预测是资产配置与风险管理的关键环节。该数据集通过粗糙路径预测引擎，融合签名核方法与Log-ODE模型，为交易所交易基金（ETF）的收益率预测提供了经典范例。其核心应用场景在于利用历史价格数据，构建动态截断的诺伊曼级数展开，并在对数签名空间上实施神经控制微分方程，从而实现对固定收益、商品及股票等多元资产类别的精准时序建模。

衍生相关工作

围绕该数据集的技术框架，衍生出一系列经典研究工作。签名核方法在金融信号处理中的扩展应用，促进了核学习与时序分析的交叉融合；Log-ODE模型则推动了神经微分方程在随机控制领域的深入探索。后续研究在此基础上发展了多尺度签名特征提取、路径空间降维技术以及自适应集成学习策略，进一步丰富了粗糙路径理论在量化金融中的实证基础。这些工作共同构成了现代计算金融学中一个活跃且富有成果的研究分支。

数据集最近研究