graceesthi/ug-cppo-finai-2025-signals
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/graceesthi/ug-cppo-finai-2025-signals
下载链接
链接失效反馈官方服务:
资源简介:
UG-CPPO Signals数据集是一个用于金融新闻中LLM不确定性估计的数据集。它包含28,502个(ticker, date)对,涵盖20个纳斯达克股票代码,时间跨度为2013年至2023年。每个数据行包括股票代码、日期、推荐分数均值、标准差、置信度、风险分数均值、风险标准差、风险置信度以及一个布尔值表示信号是否被抑制。数据集的生成使用了OpenAI gpt-4o-mini模型,通过5个提示的集合进行推荐,4个提示的集合进行风险评估。数据集还展示了LLM不确定性σ与熊市行情的关系,验证了提示集合σ是一个真实的市场行情指标。
The UG-CPPO Signals dataset is a collection of pre-computed uncertainty-aware LLM trading signals over the FNSPID dataset, used in the UG-CPPO paper (FinAI Contest 2025). It contains 28,502 (ticker, date) pairs covering 20 Nasdaq tickers from 2013 to 2023. Each row includes the stock symbol, date, mean recommendation score, standard deviation, confidence, mean risk score, risk standard deviation, risk confidence, and a boolean indicating whether the signal was suppressed. The dataset was generated using OpenAI gpt-4o-mini with a 5-prompt ensemble for recommendation and a 4-prompt ensemble for risk assessment. The dataset also demonstrates the relationship between LLM uncertainty σ and bear-market regimes, validating that prompt-ensemble σ is a genuine market-regime indicator.
提供机构:
graceesthi
搜集汇总
数据集介绍

构建方式
该数据集构建于FNSPID基础之上,旨在为金融新闻提供预计算的、具有不确定性感知能力的LLM交易信号。每一行对应一个(股票代码,日期)配对,通过OpenAI的gpt-4o-mini模型进行评分。具体而言,采用5次提示集成获取推荐分数,4次提示集成评估风险水平,从而捕捉认知不确定性。基于评分标准差,进一步推导出置信度指标,并设定阈值(0.40)以触发信号抑制机制(gate_fired)。整个流程共调用256,518次LLM API,成本约3.40美元,覆盖20只纳斯达克股票在2013至2023年间的28,502个配对样本。
特点
数据集的核心特色在于将不确定性量化引入金融信号生成过程。通过多提示集成策略,系统性地评估推荐与风险两个维度的认知不确定性,并转化为直观的置信度分数(confidence和risk_confidence)。这种设计使得信号不仅包含均值评分,还附带标准偏差信息,便于下游模型判断信号可靠性。此外,gate_fired布尔标志直接指示何时信号因置信度不足而被抑制,为风险敏感型交易策略提供了清晰的决策边界,充分体现了UG-CPPO论文中不确定性门控的思想精髓。
使用方法
数据集以Parquet格式存储于HuggingFace Hub,用户可通过huggingface_hub库的hf_hub_download函数轻松下载。加载时,只需指定数据集标识符和文件名,利用pandas的read_parquet方法即可读取完整数据框。数据可直接用于强化学习交易智能体的训练或回测,尤其适合需要集成不确定性感知信号的研究场景。常见用法包括将mean_score和confidence作为特征输入,或依据gate_fired标志过滤低置信度样本,从而提升交易策略的鲁棒性。
背景与挑战
背景概述
近年来,大语言模型在金融文本分析领域的应用日益广泛,但其输出固有的不确定性对金融决策系统构成了严峻挑战。在此背景下,Grace-Esther Dong等研究者于2025年提出了UG-CPPO框架,旨在通过不确定性量化机制增强大语言模型驱动的交易信号可靠性。该数据集为UG-CPPO论文的配套资源,涵盖了2013至2023年间20只纳斯达克成分股共计28,502个(股票代码,日期)观测点,基于OpenAI gpt-4o-mini构建了5提示集成推荐与4提示集成风险评估体系。作为FinAI 2025竞赛Task 1的技术成果,该工作为风险敏感型强化学习交易代理的噪声源管理提供了开创性方案,也在大语言模型量化金融应用领域引发了广泛关注。
当前挑战
该数据集直面金融自然语言处理中的核心困境:大语言模型在生成交易信号时,其预测结果的认知不确定性可能诱发策略偏差。具体挑战包括:1)如何设计可量化的不确定性门控机制,使得低于置信度阈值(如0.40)的信号能被自动抑制,避免风险暴露;2)构建大规模多提示集成系统需平衡计算开销与统计效能,本研究以256,518次API调用(成本约3.40美元)实现了这一目标;3)跨十年周期的金融新闻数据存在概念漂移现象,单一评分范式难以完全适应市场结构演变。这些挑战不仅考验数据标注的经济性,更要求在信号生成流程中嵌入可验证的鲁棒性验证策略。
常用场景
经典使用场景
在金融与人工智能交叉研究领域,ug-cppo-finai-2025-signals数据集为基于大语言模型的量化交易信号生成提供了标准化的基准资源。该数据集涵盖2013至2023年间20只纳斯达克股票的28,502个(股票代码,日期)观测对,通过gpt-4o-mini的多提示集成方法计算得到推荐分数和风险分数的均值与标准差,并构建了置信度指标与门控信号。研究者可将其直接作为强化学习交易智能体的输入特征,或是评估大语言模型在市场预测中的不确定性量化能力。数据集以高效Parquet格式存储,通过HuggingFace Hub即可便捷加载,极大降低了金融自然语言处理研究的复现门槛。
实际应用
在实际场景中,该数据集直接服务于风险敏感的量化交易系统构建。资产管理公司和对冲基金可将其作为强化学习交易策略的状态空间补充,利用置信度门控机制实现自动化仓位控制——当gate_fired为真时自动规避高不确定性交易。数据集兼容标准回测框架,支持对2013-2023年间20只纳斯达克股票的模拟交易验证。此外,金融科技开发者可基于mean_score和mean_risk构建风险评估仪表盘,或将其嵌入投资顾问系统作为LLM信号的可信度过滤器。约$3.40的低计算成本使其成为中小型金融机构探索LLM交易应用的理想起点。
衍生相关工作
围绕该数据集的核心方法——UG-CPPO(不确定性门控的LLM灌注强化学习交易智能体),已在NeurIPS 2026 FinAI竞赛中形成了重要的衍生研究脉络。论文工作首次将置信度门控机制与策略优化相结合,证明了在信号不确定性过高时关闭LLM注入可显著提升风险调整后收益。后续工作可能包括:探索更复杂的置信度函数形式(如贝叶斯不确定性建模)、扩展至多资产类别的跨市场信号库、以及将门控机制与分散式强化学习框架集成。该数据集还启发了对LLM集成中prompt数量与分布形状影响的系统研究,为金融NLP领域的不确定性量化方法提供了可复用的实验基准。
以上内容由遇见数据集搜集并总结生成



