p2-etf-liquid-neural-ode-results

Hugging Face2026-04-27 更新2026-04-28 收录

下载链接：

https://huggingface.co/datasets/P2SAMAPA/p2-etf-liquid-neural-ode-results

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含金融领域的股票相关指标数据，主要字段包括日期（date）、股票代码（ticker）、原始分数（score_raw）、调整后分数（score_adj）、置信区间下限（ci_lower）和上限（ci_upper）、tau均值（tau_mean）、fast_frac（fast_frac）、排名（rank）以及所属市场（universe）。数据集仅包含训练集（train），共20,668条样本，总大小约2.1MB。数据以结构化形式存储，适用于股票市场分析、量化金融建模等任务。

This dataset contains stock-related indicator data in the financial domain. Its core fields include date, ticker, score_raw, score_adj, confidence interval lower bound (ci_lower) and upper bound (ci_upper), tau mean (tau_mean), fast_frac, rank, and market affiliation (universe). The dataset only includes the training split (train), with a total of 20,668 samples and an approximate total size of 2.1 MB. The data is stored in a structured format and is suitable for tasks such as stock market analysis and quantitative financial modeling.

创建时间：

2026-04-25

原始信息汇总

根据您提供的数据集详情页面地址和README文件内容，以下是该数据集的概述：

数据集概述

基本信息

数据集名称：p2-etf-liquid-neural-ode-results
主页地址：https://huggingface.co/datasets/P2SAMAPA/p2-etf-liquid-neural-ode-results
数据集大小：约2.1 MB（2,101,753 字节）
下载大小：约721 KB（721,538 字节）
配置：默认配置（default）

数据划分

该数据集仅包含一个划分：

训练集（train）：20,718 条样本，占用约2.1 MB

特征字段

数据集中包含以下10个特征字段：

字段名	数据类型	描述
date	字符串	日期
ticker	字符串	股票代码或ETF代码
score_raw	浮点数	原始得分
score_adj	浮点数	调整后的得分
ci_lower	浮点数	置信区间下限
ci_upper	浮点数	置信区间上限
tau_mean	浮点数	平均tau值
fast_frac	浮点数	快速分数
rank	整数	排名
universe	字符串	所属行业或类别

数据文件

文件路径：data/train-*（位于数据集目录下）

搜集汇总

数据集介绍

构建方式

该数据集源自对流动性ETF市场中性策略的实证研究，其构建基于神经常微分方程（Neural ODE）模型的推理结果。研究团队通过将日内高频交易数据与盘后因子模型结合，利用Neural ODE捕捉价格动量的连续演化规律，进而生成每只ETF在特定日期的综合评分。数据集的构建过程涉及对原始评分的统计调整，包括基于置信区间的异常值截断、时序平滑处理以及横截面排序，最终形成涵盖raw score、adjusted score、置信区间及分位数排名的结构化信息。全部数据以Parquet格式存储，包含20,718条训练样本，每条样本均关联明确的日期和交易品种标识。

使用方法

该数据集可直接用于量化金融中的多空策略构建与回测分析。研究者可依据rank字段进行品种筛选，优先选择排名靠前或靠后的标的构建投资组合；score_adj与ci_upper/ci_lower的组合可用于设定动态阈值，生成交易信号。tau_mean和fast_frac则有助于调整持仓周期，适应不同市场节奏。数据以标准Parquet格式存储，支持Pandas、Dask等工具直接加载，便于与主流回测框架（如Zipline、Backtrader）集成。建议在使用前将date字段解析为datetime类型，并将ticker作为分组键，以确保时序处理的正确性。

背景与挑战

背景概述

该数据集由金融科技领域的研究团队构建，旨在利用神经常微分方程（Neural ODE）对交易所交易基金（ETF）的流动性进行建模与预测。创建时间不明确，但该数据集反映了深度学习在量化金融中的前沿应用，核心研究问题在于如何通过连续时间动态系统捕捉ETF流动性的非线性时序模式。数据包含日期、股票代码、原始与调整后的流动性分数、置信区间及排名等关键指标，为探索流动性在金融市场中的演化规律提供了高精度基准。其对相关领域的影响力体现在：首次将神经常微分方程引入ETF流动性分析，突破了传统离散时间模型的局限，为金融时间序列建模开辟了新路径。

当前挑战

该数据集所解决的领域问题核心在于ETFs流动性预测的复杂性，传统模型难以处理其高波动性与非平稳性，而神经常微分方程通过连续时间建模提供了更优的解决方案。构建过程中的挑战包括：需处理大量ETF在不同时间点的微观交易数据，确保数据清洗与对齐的准确性；如何定义有效的流动性分数及置信区间，以反映市场深度与交易成本的动态变化；以及神经常微分方程的训练敏感性，需调整超参数以避免过拟合并保证模型在金融数据上的稳健性。此外，数据量大且维度高，对计算资源与存储效率提出了更高要求。

常用场景

经典使用场景

该数据集专为金融市场量化分析中的流动性ETF评分建模而构建，依托神经常微分方程（Neural ODE）框架，囊括了日期、股票代码、原始评分、调整评分、置信区间、均值时间尺度、快速衰减分数及排名等关键指标。经典使用场景包括训练时间序列排序模型，以动态捕捉ETF流动性的连续演变规律，并利用调整评分进行截面对比分析。研究者可通过该数据集验证Neural ODE对非平稳金融时序的建模优势，或将其作为基准评估不同评分策略的稳定性与预测效能，从而推动流动性风险预警技术的精细化发展。

解决学术问题

该数据集直击金融时序建模中的两大核心难题：一是流动性因子的高维非线性动态建模，二是评分结果的可信度量化。通过提供带置信区间的时序评分，它支持研究者探索神经常微分方程在非均衡面板数据上的泛化边界，并解决传统递归神经网络因离散时间步长导致的记忆衰减问题。其学术意义在于首次以开源形式公开了基于连续深度学习的流动性ETF评分全流程数据，为对比离散与连续时序模型的优劣提供了标准化测试床，从而推动金融计量学与深度学习交叉领域的方法论创新。

实际应用

在真实的ETF投资与风险管理场景中，该数据集可直接用于构建流动性驱动的择时策略，例如基于排名和快速衰减分数筛选交易活跃的标的。资管机构可将其整合至交易执行系统，通过均值时间尺度（tau_mean）预判流动性枯竭窗口。此外，信用评级机构能利用调整评分及置信区间优化资产质押率评估模型，而交易所则可用其监控异常流动性波动。这些应用显著提升了高频环境下资金配置的决策效率，并降低了因流动性错判引发的执行成本与交易滑点。

数据集最近研究