P2SAMAPA/p2-etf-liquid-neural-ode-results
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/P2SAMAPA/p2-etf-liquid-neural-ode-results
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含金融或股票市场相关的数据,具体特征包括日期、股票代码、原始分数、调整分数、置信区间下限、置信区间上限、平均tau值、快速分数比例、排名和所属市场。数据集分为训练集,包含20,918个样本,总大小为2,121,732字节。
This dataset appears to contain financial or stock market-related data, with features including date, ticker, raw score, adjusted score, confidence interval lower bound, confidence interval upper bound, mean tau value, fast fraction, rank, and market universe. The dataset is split into a training set with 20,918 examples and a total size of 2,121,732 bytes.
提供机构:
P2SAMAPA
搜集汇总
数据集介绍

构建方式
该数据集基于学术研究中广泛使用的因子定价模型与神经网络微分方程理论构建而成。核心流程囊括了从公开金融市场中采集ETF(交易型开放式指数基金)的高频流动性数据,随后通过神经常微分方程(Neural ODE)框架对连续时间内的资产流动性与价格动态进行建模。在得出初步评分后,研究者进一步引入了置信区间估计与时间衰减调整机制,生成了经过标准化处理的评分字段(score_raw与score_adj),并辅以对应的置信区间下界(ci_lower)与上界(ci_upper)。同时,数据集中还纳入了时间尺度参数tau_mean与快速衰减因子fast_frac以刻画市场微观结构的变化速率。最终,经由分位数排序获得每个ETF在对应投资宇宙(universe)中的相对排名(rank),构成了一套兼具时序连续性与横截面区分度的结构化数据集。
特点
该数据集最显著的特征在于其融合了时序建模与截面排名的双重优势。一方面,通过Neural ODE捕捉流动性变化的连续动力学特性,使评分能够反映短时间内市场状态的平滑演化;另一方面,利用包含约两万条训练样本的精心构建的截面,对每只ETF在指定日期下的流动性品质进行量化评估,并附带了置信区间以体现评分的不确定性。此外,数据字段中既包含原始得分与调整后得分,也包含均值回复时间与快速衰减比例等动态指标,极大丰富了流动性分析的维度。这些特征使得该数据集既适用于金融时间序列预测,也为量化投资策略中的资产筛选提供了稳健的排序依据。
使用方法
使用者可将该数据集直接应用于金融时间序列分析、因子投资模型训练以及流动性风险度量等场景。具体的,研究人员可以提取date与ticker字段构建面板数据结构,利用score_adj与rank进行多空组合策略的回测。对于需要不确定性建模的工作,可以借助ci_lower与ci_upper字段构造置信区间,实施更谨慎的资产配置决策。此外,tau_mean与fast_frac两字段可单独作为特征,输入至机器学习的预测模型中,用于训练资产流动性突变预警系统。数据集以Parquet格式存储且已在Hugging Face Datasets库中注册,用户只需通过简单的加载函数即可分批次读取训练数据,大幅降低了金融研究中的工程门槛。
背景与挑战
背景概述
该数据集聚焦于金融时间序列分析领域,特别是针对交易所交易基金(ETF)的流动性评估与预测。随着深度学习在量化金融中的广泛应用,神经常微分方程(Neural ODE)作为一种能够处理不规则时间序列的连续时间模型,逐渐受到研究者的青睐。该数据集由相关研究团队创建,旨在通过Neural ODE模型输出ETF的流动性评分及相关统计指标,以解决传统离散时间模型在捕捉市场微观结构动态变化方面的局限性。数据涵盖多个时间点与品种的评分结果,为金融流动性预测提供了新的基准资源,对推动连续时间模型在量化投资中的应用具有重要意义。
当前挑战
该数据集所面对的领域挑战在于金融市场流动性预测的高度非线性和时变性,传统离散模型难以有效捕捉市场微观结构中的突发变化与动态演变规律。构建过程中,研究者需处理高频金融数据中的噪声、缺失值及非平稳性,同时确保Neural ODE模型在计算效率与数值稳定性之间的平衡。此外,如何从模型输出中提取具有统计学意义的置信区间与评分指标,并保证其在不同市场环境下的泛化能力,也是构建时面临的核心难题。
常用场景
经典使用场景
该数据集旨在为基于神经常微分方程(Neural ODE)的ETF流动性评分模型提供训练与评估基础。其核心应用场景包括:利用时间序列数据对ETF的流动性动态进行建模,通过score_raw和score_adj等字段量化流动性水平;结合置信区间(ci_lower, ci_upper)和衰减因子(tau_mean)捕捉流动性演化的连续性与不确定性;同时借助排名(rank)与市场范围(universe)信息,支持跨ETF的横向比较与投资组合优化。研究者可基于此数据集训练Neural ODE模型,以替代传统离散时间序列方法,更精细地刻画ETF流动性的时变特征。
解决学术问题
该数据集有效解决了金融计量领域中ETF流动性动态建模的若干关键难题。传统模型多依赖离散化假设,难以捕捉流动性数据的连续演化规律与隐式非线性动力学。通过引入Neural ODE框架,数据集使得研究者能够从高频时序观测中学习流动性的内在微分方程,从而更准确地预测流动性变化并量化其不确定性。这一思路不仅丰富了时间序列建模的理论工具箱,也为高维金融数据的可微分处理提供了新范式,促进了深度学习与金融工程交叉领域的学术发展。
衍生相关工作
该数据集催生了一系列将Neural ODE与时间序列分析相结合的学术工作。一方面,研究者借鉴其数据格式,开发了融合注意力机制与连续时间动力学的混合模型,以处理非平稳金融序列的波动聚类现象。另一方面,围绕评分置信区间的估计,衍生出基于贝叶斯神经常微分方程的不确定性量化方法。此外,该数据集还推动了跨资产类比研究,例如将ETF流动性建模范式迁移至加密货币或衍生品市场,验证了Neural ODE在更广泛流动性分析中的通用性。
以上内容由遇见数据集搜集并总结生成



