FINDEEPFORECASTBENCH

Name: FINDEEPFORECASTBENCH
Creator: 新加坡国立大学; 亚洲数字金融研究院; 6Estates Pte Ltd; 中国科学技术大学; 华南理工大学
Published: 2026-01-08 23:45:09
License: 暂无描述

arXiv2026-01-08 更新2026-01-10 收录

下载链接：

https://OpenFinArena.com/

下载链接

链接失效反馈

官方服务：

资源简介：

FINDEEPFORECASTBENCH是由新加坡国立大学联合多家机构开发的动态金融预测评估基准，包含1394条公司级和宏观级预测任务，覆盖8个主要经济体和1314家上市公司。数据集通过双轨分类法动态生成周期性披露任务和事件驱动型任务，包含296项宏观周期性任务、723项公司周期性任务以及375项非周期性任务。该数据集旨在严格评估深度研究智能体在真实金融场景中的前瞻性推理能力，解决传统静态基准存在的数据污染问题，为金融AI领域提供首个端到端的实时评估平台。

FINDEEPFORECASTBENCH is a dynamic financial forecasting evaluation benchmark developed by the National University of Singapore in collaboration with multiple institutions. It encompasses 1,394 company-level and macro-level forecasting tasks, covering 8 major economies and 1,314 listed companies. The benchmark dynamically generates periodic disclosure tasks and event-driven tasks through a dual-track classification framework, which includes 296 macro periodic tasks, 723 corporate periodic tasks, and 375 aperiodic tasks. This benchmark aims to rigorously assess the forward-looking reasoning capabilities of deep research-oriented AI Agents in real-world financial scenarios, address the data contamination issue existing in traditional static benchmarks, and provide the first end-to-end real-time evaluation platform for the financial AI field.

提供机构：

新加坡国立大学; 亚洲数字金融研究院; 6Estates Pte Ltd; 中国科学技术大学; 华南理工大学

创建时间：

2026-01-08

搜集汇总

数据集介绍

构建方式

在金融预测领域，传统静态基准常因数据污染而失效，FINDEEPFORECASTBENCH通过动态多智能体系统构建，实现了前瞻性任务的持续生成。该系统采用双轨分类法，将任务划分为周期性披露的数值预测与非周期性事件的二元分类，涵盖企业与宏观两个层面。数据收集阶段持续监控企业财报、政府发布、金融新闻与市场数据，并建立时间戳数据库以保障时间隔离。任务生成通过模板化与基于大语言模型的流程分别处理周期性与非周期性任务，每周更新任务批次，覆盖八个主要经济体及1314家上市公司，形成长达十周的滚动评估基准。

使用方法

研究人员可通过OpenFinArena平台公开获取该基准及其排行榜，用于评估深度研究智能体及其他大语言模型在金融预测任务中的表现。使用前需严格遵循时间隔离原则，模型仅能访问预测截止日期前的信息。评估时，周期性任务采用基于误差阈值的二元评分，非周期性任务则要求精确匹配。用户可将模型接入系统标准化接口，接收每周发布的任务批次，并按规定格式提交预测结果。系统将自动提取真实答案并计算准确率，结果按任务类别、预测周期与市场区域进行细分统计，为模型能力提供多维度的性能剖析。

背景与挑战

背景概述

随着大型语言模型驱动的深度研究智能体在复杂研究任务中展现出范式转换的潜力，对其在真实世界、高风险领域（如金融）中预测性能的全面且动态的评估仍显不足。由新加坡国立大学、亚洲数字金融研究所等机构的研究团队于2026年提出的FINDEEPFORECASTBENCH数据集，旨在填补这一空白。该数据集是首个面向金融预测的、端到端的实时多智能体评估基准，其核心研究问题聚焦于如何无污染地、持续地评估深度研究智能体在具有前瞻性的研究型金融预测任务上的真实能力。通过覆盖8个主要经济体和1,314家上市公司，该数据集为评估智能体在宏观经济与企业层面的周期性披露和事件驱动型预测任务上的表现，提供了严谨且动态的测试平台，对推动AI在金融研究与决策支持领域的发展具有重要影响力。

当前挑战

FINDEEPFORECASTBENCH致力于解决的领域核心挑战，在于如何对深度研究智能体在真实、动态且高风险的金融预测任务中进行严谨评估。具体而言，该领域长期面临静态基准易受数据污染、评估任务缺乏前瞻性与研究导向性，以及难以模拟严格时间隔离的现实预测环境等难题。在数据集构建过程中，挑战同样显著：首先，需要设计一个能够持续、自动生成兼具周期性数值预测与突发性事件预测任务的双轨分类体系与动态生成系统；其次，确保从海量、多源、高噪声的实时金融数据流中，可靠地识别预测信号、生成高质量任务并获取客观真实值，涉及复杂的信息抽取与专家验证流程；最后，维持跨多个市场、不同任务类型与时间频率的评估广度与深度，同时保证评估过程的公平性与可重复性，构成了系统工程上的重大挑战。

常用场景

经典使用场景

在金融预测研究领域，FINDEEPFORECASTBENCH作为首个动态多智能体评估系统，其经典使用场景聚焦于对深度研究智能体进行前瞻性、研究导向的金融预测任务的无污染评估。该基准通过双轨分类法，动态生成周期性披露的数值预测任务与非周期性事件驱动的二元预测任务，涵盖企业与宏观经济两个层面。研究者利用该基准，能够在严格的时间隔离条件下，系统性地评估智能体对真实市场环境中未来事件的推理与预测能力，从而推动金融人工智能向更严谨、更贴近实际应用的方向演进。

解决学术问题

该数据集有效解决了金融人工智能领域若干关键学术问题。首先，它通过动态生成与时间隔离机制，彻底规避了传统静态基准中普遍存在的数据污染问题，确保了评估的纯净性与公正性。其次，它填补了针对深度研究智能体在真实世界、高风险的金融预测任务上进行系统性、前瞻性评估的空白。数据集设计的双轨任务结构，能够分别检验模型对规律性数值披露的精确预测能力，以及对突发性市场事件的识别与判断能力，从而全面衡量智能体的复杂研究能力，为评估范式从静态知识回忆转向动态推理预测提供了科学基础。

实际应用

在实际应用层面，FINDEEPFORECASTBENCH为金融机构、投资研究部门及金融科技公司提供了评估与筛选人工智能预测模型的可靠平台。基于该基准的评估结果，能够指导实际投资决策中对AI辅助分析工具的选用与信任度校准。例如，资产管理公司可依据模型在基准中对企业盈利预测或宏观经济指标预测的表现，筛选出具备稳健预测能力的智能体，用于构建量化投资策略或进行风险预警。同时，该基准的持续更新特性，使其能够紧跟市场动态，为实时监控模型在变化市场环境下的表现退化提供了可能，保障了AI系统在实际部署中的长期有效性。

数据集最近研究