p2-etf-liquid-neural-ode-results
收藏Hugging Face2026-04-27 更新2026-04-28 收录
下载链接:
https://huggingface.co/datasets/P2SAMAPA/p2-etf-liquid-neural-ode-results
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含金融领域的股票相关指标数据,主要字段包括日期(date)、股票代码(ticker)、原始分数(score_raw)、调整后分数(score_adj)、置信区间下限(ci_lower)和上限(ci_upper)、tau均值(tau_mean)、fast_frac(fast_frac)、排名(rank)以及所属市场(universe)。数据集仅包含训练集(train),共20,668条样本,总大小约2.1MB。数据以结构化形式存储,适用于股票市场分析、量化金融建模等任务。
This dataset contains stock-related indicator data in the financial domain. Its core fields include date, ticker, score_raw, score_adj, confidence interval lower bound (ci_lower) and upper bound (ci_upper), tau mean (tau_mean), fast_frac, rank, and market affiliation (universe). The dataset only includes the training split (train), with a total of 20,668 samples and an approximate total size of 2.1 MB. The data is stored in a structured format and is suitable for tasks such as stock market analysis and quantitative financial modeling.
创建时间:
2026-04-25
原始信息汇总
根据您提供的数据集详情页面地址和README文件内容,以下是该数据集的概述:
数据集概述
基本信息
- 数据集名称:p2-etf-liquid-neural-ode-results
- 主页地址:https://huggingface.co/datasets/P2SAMAPA/p2-etf-liquid-neural-ode-results
- 数据集大小:约2.1 MB(2,101,753 字节)
- 下载大小:约721 KB(721,538 字节)
- 配置:默认配置(default)
数据划分
该数据集仅包含一个划分:
- 训练集(train):20,718 条样本,占用约2.1 MB
特征字段
数据集中包含以下10个特征字段:
| 字段名 | 数据类型 | 描述 |
|---|---|---|
| date | 字符串 | 日期 |
| ticker | 字符串 | 股票代码或ETF代码 |
| score_raw | 浮点数 | 原始得分 |
| score_adj | 浮点数 | 调整后的得分 |
| ci_lower | 浮点数 | 置信区间下限 |
| ci_upper | 浮点数 | 置信区间上限 |
| tau_mean | 浮点数 | 平均tau值 |
| fast_frac | 浮点数 | 快速分数 |
| rank | 整数 | 排名 |
| universe | 字符串 | 所属行业或类别 |
数据文件
- 文件路径:
data/train-*(位于数据集目录下)
搜集汇总
数据集介绍

构建方式
该数据集源自对流动性ETF市场中性策略的实证研究,其构建基于神经常微分方程(Neural ODE)模型的推理结果。研究团队通过将日内高频交易数据与盘后因子模型结合,利用Neural ODE捕捉价格动量的连续演化规律,进而生成每只ETF在特定日期的综合评分。数据集的构建过程涉及对原始评分的统计调整,包括基于置信区间的异常值截断、时序平滑处理以及横截面排序,最终形成涵盖raw score、adjusted score、置信区间及分位数排名的结构化信息。全部数据以Parquet格式存储,包含20,718条训练样本,每条样本均关联明确的日期和交易品种标识。
使用方法
该数据集可直接用于量化金融中的多空策略构建与回测分析。研究者可依据rank字段进行品种筛选,优先选择排名靠前或靠后的标的构建投资组合;score_adj与ci_upper/ci_lower的组合可用于设定动态阈值,生成交易信号。tau_mean和fast_frac则有助于调整持仓周期,适应不同市场节奏。数据以标准Parquet格式存储,支持Pandas、Dask等工具直接加载,便于与主流回测框架(如Zipline、Backtrader)集成。建议在使用前将date字段解析为datetime类型,并将ticker作为分组键,以确保时序处理的正确性。
背景与挑战
背景概述
该数据集由金融科技领域的研究团队构建,旨在利用神经常微分方程(Neural ODE)对交易所交易基金(ETF)的流动性进行建模与预测。创建时间不明确,但该数据集反映了深度学习在量化金融中的前沿应用,核心研究问题在于如何通过连续时间动态系统捕捉ETF流动性的非线性时序模式。数据包含日期、股票代码、原始与调整后的流动性分数、置信区间及排名等关键指标,为探索流动性在金融市场中的演化规律提供了高精度基准。其对相关领域的影响力体现在:首次将神经常微分方程引入ETF流动性分析,突破了传统离散时间模型的局限,为金融时间序列建模开辟了新路径。
当前挑战
该数据集所解决的领域问题核心在于ETFs流动性预测的复杂性,传统模型难以处理其高波动性与非平稳性,而神经常微分方程通过连续时间建模提供了更优的解决方案。构建过程中的挑战包括:需处理大量ETF在不同时间点的微观交易数据,确保数据清洗与对齐的准确性;如何定义有效的流动性分数及置信区间,以反映市场深度与交易成本的动态变化;以及神经常微分方程的训练敏感性,需调整超参数以避免过拟合并保证模型在金融数据上的稳健性。此外,数据量大且维度高,对计算资源与存储效率提出了更高要求。
常用场景
经典使用场景
该数据集专为金融市场量化分析中的流动性ETF评分建模而构建,依托神经常微分方程(Neural ODE)框架,囊括了日期、股票代码、原始评分、调整评分、置信区间、均值时间尺度、快速衰减分数及排名等关键指标。经典使用场景包括训练时间序列排序模型,以动态捕捉ETF流动性的连续演变规律,并利用调整评分进行截面对比分析。研究者可通过该数据集验证Neural ODE对非平稳金融时序的建模优势,或将其作为基准评估不同评分策略的稳定性与预测效能,从而推动流动性风险预警技术的精细化发展。
解决学术问题
该数据集直击金融时序建模中的两大核心难题:一是流动性因子的高维非线性动态建模,二是评分结果的可信度量化。通过提供带置信区间的时序评分,它支持研究者探索神经常微分方程在非均衡面板数据上的泛化边界,并解决传统递归神经网络因离散时间步长导致的记忆衰减问题。其学术意义在于首次以开源形式公开了基于连续深度学习的流动性ETF评分全流程数据,为对比离散与连续时序模型的优劣提供了标准化测试床,从而推动金融计量学与深度学习交叉领域的方法论创新。
实际应用
在真实的ETF投资与风险管理场景中,该数据集可直接用于构建流动性驱动的择时策略,例如基于排名和快速衰减分数筛选交易活跃的标的。资管机构可将其整合至交易执行系统,通过均值时间尺度(tau_mean)预判流动性枯竭窗口。此外,信用评级机构能利用调整评分及置信区间优化资产质押率评估模型,而交易所则可用其监控异常流动性波动。这些应用显著提升了高频环境下资金配置的决策效率,并降低了因流动性错判引发的执行成本与交易滑点。
数据集最近研究
最新研究方向
该数据集聚焦于利用神经常微分方程(Neural ODE)对交易所交易基金(ETF)的流动性进行动态建模与评分,代表了深度学习与金融时序分析的前沿交叉。研究领域正从传统静态因子模型转向连续时间驱动的方法,Neural ODE因其能捕捉市场微观结构的非线性演化与不规则时间间隔特性而备受关注。该数据集提供了经调整的流动性评分、置信区间及分位数指标,为开发高频流动性预测模型和风险管理工具提供了基准。结合近期市场波动加剧与算法交易盛行,此类研究有助于提升ETF做市商与投资组合对极端流动性事件的响应能力,对构建更具韧性的市场机制具有显著意义。
以上内容由遇见数据集搜集并总结生成



