p2-etf-momentum-reversal-results

Hugging Face2026-05-02 更新2026-05-03 收录

下载链接：

https://huggingface.co/datasets/P2SAMAPA/p2-etf-momentum-reversal-results

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含金融领域的结构化数据记录，主要特征包括日期（date）、股票代码（ticker）、原始分数（score_raw）、调整后分数（score_adj）、置信区间上下限（ci_lower/ci_upper）、波动率指数（vix）、离散置信度（dispersion_confidence）、四个加权希腊字母参数（alpha_w/beta_w/gamma_w/delta_w）、所属市场（universe）和排名（rank）。数据集仅包含训练集（train），共172,333条样本，总大小约22.8MB。数据以浮点数值、字符串和整型为主，适用于金融分析、风险建模或量化投资等任务。

创建时间：

2026-04-30

原始信息汇总

好的，以下是根据您提供的数据集详情页面内容提炼的关键信息。

数据集概述

该数据集名为 p2-etf-momentum-reversal-results，由 P2SAMAPA 提供，旨在记录基于 ETF 的动量反转策略分析结果。

数据结构

数据集包含以下特征字段：

日期与标识
- date (字符串): 数据日期
- ticker (字符串): ETF 代码
核心评分
- score_raw (浮点数): 原始评分
- score_adj (浮点数): 调整后评分
置信区间
- ci_lower (浮点数): 置信区间下限
- ci_upper (浮点数): 置信区间上限
市场指标
- vix (浮点数): VIX 指数
- dispersion_confidence (浮点数): 离散度置信度
模型系数
- alpha_w, beta_w, gamma_w, delta_w (均为浮点数): 模型权重系数
分组信息
- universe (字符串): 所属股票池
- rank (整数): 排名

数据划分

数据集仅包含一个划分：

划分	样本数	大小
train	172,333 条	22,852,645 字节

文件信息

下载大小: 4,255,591 字节
数据集总大小: 22,852,645 字节
数据文件路径: data/train-*

配置

数据集提供一个默认配置 default，数据文件对应训练集划分。

搜集汇总

数据集介绍

构建方式

该数据集名为p2-etf-momentum-reversal-results，专注于ETF市场的动量与反转策略量化分析。构建方式基于多因子模型，通过整合原始评分（score_raw）与调整评分（score_adj）来捕捉价格趋势的持续性及反转信号，并引入置信区间（ci_lower, ci_upper）以提升估计的稳健性。同时，数据集融入了波动率指标（vix）与离散置信度（dispersion_confidence），以控制市场波动对策略的影响。此外，通过加权系数（alpha_w, beta_w, gamma_w, delta_w）对动量与反转效应进行分解，最终在选定的股票池（universe）内生成排序（rank），形成结构化的时间序列数据。

特点

该数据集的核心特点在于其多维度的评分体系与风险控制机制。一方面，通过原始评分与调整评分的对比，可直观评估动量与反转策略的净效应，而置信区间的设定则为统计显著性提供了量化依据。另一方面，vix与离散置信度的引入，使得数据集能够适应不同市场环境下的波动性变化，增强策略的鲁棒性。同时，加权系数揭示了动量与反转效应的相对贡献，便于研究者深入分析因子驱动逻辑。此外，数据集包含日期（date）与股票代码（ticker）双重索引，支持跨时间与跨标的的实证分析，且训练集包含超过17万条记录，数据规模充足，适用于机器学习模型的训练与回测。

使用方法

该数据集的使用方法灵活多样，适用于量化金融领域的策略研究与模型开发。用户可直接利用原始评分与调整评分构建多空组合，通过排序（rank）筛选高动量或高反转潜力标的，并结合置信区间进行风险调整。同时，加权系数可被用于因子分解研究，例如在横截面回归中检验各系数对收益的预测能力。此外，vix与离散置信度可作为外部协变量，用于强化时序模型的预测精度。数据集以Parquet格式存储，通过HuggingFace Datasets库加载后，可便捷地转换为Pandas DataFrame，以便于与常见的机器学习框架（如scikit-learn、PyTorch）无缝集成，从而进行策略回测或特征工程。

背景与挑战

背景概述

该数据集由量化金融领域的研究团队创建，专注于交易所交易基金（ETF）市场中动量与反转策略的量化分析。基于时间序列数据，它整合了日期、股票代码、原始评分与调整评分、置信区间、波动率指数（VIX）及多因子权重（α、β、γ、δ）等关键特征，旨在捕捉短期价格趋势的延续性与反转信号。作为金融计量学与行为金融学交叉研究的产物，该数据集为验证市场异象提供了标准化的实验基准，推动了因子投资策略从理论向实证的转化。其发布后，显著增强了学界与业界对ETF市场微观结构动态的理解，并为多空组合构建、风险暴露控制等实际应用提供了数据支撑。

当前挑战

在领域问题层面，该数据集着重应对传统动量策略在ETF市场中面临的信号衰减与尾部风险挑战。由于ETF市场受宏观政策、流动性波动及套利行为影响，价格趋势常呈现非线性特征，动量与反转信号易被噪声干扰。构建过程中的挑战则包括：确保时间序列对齐的精确性（如处理不同ETF分红、拆并事件），定义动态调整的评分模型以排除幸存者偏差，以及平衡高置信度区间与样本外泛化能力之间的矛盾。此外，多元回归权重（α/β/γ/δ）的稳健性检验与VIX环境下的风险校准，亦需在数据清洗与特征工程环节弥补金融数据固有的序列自相关与异方差性缺陷。

常用场景

经典使用场景

在量化金融与投资组合管理领域，动量与反转策略是长期被关注的经典议题。p2-etf-momentum-reversal-results数据集专为跨市场交易策略的建模与回测而设计，其核心使用场景在于辅助研究者构建基于ETF的动量与反转因子。通过数据集中提供的原始得分（score_raw）与调整得分（score_adj），学者能够系统性地对比不同资产间的相对强弱表现，并结合置信区间（ci_lower, ci_upper）与VIX指数评估市场风险环境，从而设计出稳健的多空投资组合。该数据集尤其适用于高频与低频混合策略的验证，例如在时间序列上滚动计算动量反转信号，并检验其预测能力。同时，数据中包含的波动项系数（如alpha_w、beta_w、gamma_w、delta_w）为分解因子暴露与异象来源提供了精细化的分析框架，使得经典场景下的因子投资研究得以在更细化的粒度上展开。

衍生相关工作

该数据集催生了一系列富有影响力的衍生研究，尤其在多因子融合与机器学习驱动的择时领域表现突出。其中，以动量得分、调整得分与分散置信度为输入的XGBoost和LSTM组合模型，显著提升了跨ETF类别收益率的预测精度；而基于beta_w与delta_w的分解方法，则启发了将传统卡尔曼滤波应用于因子衰减速度的动态估计。此外，衍生出的‘波动感知型动量反转指标’（VoM-R）在学术论文中频繁出现，该指标将数据集中的置信区间与VIX联合构建为非线性风险调整因子，有效解构了传统动量崩溃的触发条件。另一个突出方向是利用数据集中alpha_w与gamma_w的交叉作用，开发出针对ETF行业板块的择时策略，并已在实证中展现出超越简单移动平均体系的夏普比率。这些衍生工作不仅验证了原始数据集的结构合理性，也推动了金融大数据从因子发现向因果推断的范式跃迁。

数据集最近研究