OracleProto

Name: OracleProto
Creator: 北京邮电大学
Published: 2026-05-05 21:50:50
License: 暂无描述

arXiv2026-05-05 更新2026-05-08 收录

下载链接：

https://github.com/MaYiding/OracleProto

下载链接

链接失效反馈

官方服务：

资源简介：

OracleProto是由北京邮电大学团队开发的基于FutureX-Past衍生的可复现评估框架数据集，旨在通过知识截断和时间掩码技术重构已解决事件为离散预测任务。该数据集包含结构化预测实例，每个实例包含待预测问题、候选答案及验证结果，通过时间掩码机制控制模型仅能访问预测截止前的信息。其核心价值在于将过期预测基准转化为可重复使用的训练样本，为金融风险评估、政策分析等领域提供可控信号源，支持跨模型公平比较及下游监督微调（SFT）与强化学习（RL）训练。

OracleProto is a reproducible evaluation framework dataset derived from FutureX-Past, developed by the research team at Beijing University of Posts and Telecommunications. It aims to reconstruct resolved events into discrete prediction tasks through knowledge truncation and time masking techniques. This dataset includes structured prediction instances, each of which consists of the question to be predicted, candidate answers and verification results. The time masking mechanism restricts the model to only access information prior to the prediction deadline. Its core value lies in transforming expired prediction benchmarks into reusable training samples, providing controllable signal sources for fields such as financial risk assessment and policy analysis, and supporting fair cross-model comparison as well as downstream supervised fine-tuning (SFT) and reinforcement learning (RL) training.

提供机构：

北京邮电大学

创建时间：

2026-05-05

原始信息汇总

OracleProto 数据集详情

数据集概述

OracleProto 是一个可复现的框架，用于通过知识截止和时间掩码来基准测试 LLM 原生预测能力。该数据集包含 80 个精心策划的问题，涵盖三种问题类型，时间范围从 2026-03-12 至 2026-04-14。

核心原理

背景与挑战：评估 LLM 预测面临两难困境：实时基准测试容易过期，回顾性基准测试存在数据泄漏问题。提示无法建立真正的知识边界。
架构与方法：OracleProto 框架结合模型知识截止和时间掩码，将历史事件严格重构为可复现、有时间限制的预测样本。
实验结果：对六个当代 LLM 的测试表明，OracleProto 能有效区分模型的预测质量、稳定性和成本效率。它将泄漏率降低至 1%，为模型比较、监督微调和强化学习提供了受控信号源。

数据集构成

问题数量：80 个精心策划的问题
问题类型：三种不同类别
时间范围：2026-03-12 至 2026-04-14
数据格式：SQLite 数据库文件 (forecast_eval_set_example.db)

框架结构

forecast_eval/ # 核心包 ├─ runner.py # 构建任务计划 + 调度器 ├─ react.py # ReAct 循环 + Tavily 结束日期注入 ├─ leak_filter.py # 检索内容审计器 ├─ llm.py # OpenAI 兼容客户端 ├─ search.py # Tavily 封装 ├─ analysis/ # 评分和诊断：准确率、FSS、BI、复合指标、行为 ├─ prompts.py / parser.py # 输入渲染器 / 输出解析器 ├─ types.py / errors.py / config.py # 数据模型 / 类型异常 / 设置 ├─ db.py / loader.py # SQLite 架构迁移 / 数据集同步 └─ tavily_keys.py / tools.py # API 密钥轮换 / 工具架构 evaluation.py # 入口点 scripts/ # 离线工具 tests/ # 测试 runs/, logs/ # 运行产物

使用方式

环境配置

支持 uv 和 Conda 两种环境管理方式
需要配置 .env 文件，包含 LLM API 密钥、模型信息、Tavily API 密钥等

运行评估

bash python evaluation.py

每次运行会在 runs/{run_id}/ 目录下生成结果，支持断点续跑。

输出内容

runs/{run_id}/ ├─ manifest.json # 运行级元数据和哈希链 ├─ db/{model_slug}.db # 每个模型独立的 SQLite 数据库 ├─ analysis/ # CSV/JSON 分析结果 └─ logs/{run_id}.log # 日志文件

数据库仅存储原始观测数据
所有聚合指标（pass@1、FSS、BI、复合指标等）由 forecast_eval/analysis/ 模块计算

扩展性

支持用户自定义数据集。只需在 .env 中替换 SOURCE_DB 和 SOURCE_TABLE 配置，即可接入其他数据源。

联系信息

代码使用、数据集构建、结果复现：
- Yiding Ma：yidingma@bupt.edu.cn
- Chengyun Ruan：ruanchengyun815@bupt.edu.cn
联合研究、数据集与基准共建、论文合作：
- Kaibo Huang（通讯作者）：huangkaibo@bupt.edu.cn
- Zhongliang Yang（通讯作者）：yangzl@bupt.edu.cn

相关资源

论文：arXiv
Hugging Face 数据集：MaYiding/OracleProto
排行榜：oracleproto.pages.dev

搜集汇总

数据集介绍

构建方式

OracleProto数据集的构建基于一个系统化的框架，旨在将已解决的真实世界事件重构为时间受限的预测样本。其核心策略是通过模型知识截止日期与时间掩码的双重约束，确保评估对象的信息边界清晰可控。具体而言，数据集从FutureX-Past中精选80个离散选择问题，这些问题的解析日期均严格位于所选模型的知识截止日期之后，从而从源头排除参数化知识泄漏。每个样本均包含完整的预测问题、有限候选答案集、已验证的金标准答案及事件解析时间。构建过程中，采用工具层级的日期限制搜索与内容级别的泄漏检测器对检索结果进行逐条审计，以约1%的残余泄漏率维持预测任务的纯净性。最终，数据集以结构化SQLite文件形式固化，确保了可复现性与跨模型、跨时间的可比性。

特点

OracleProto数据集最显著的特征在于其将已解决事件重新激活为可重复使用的预测评估任务，从根本上解决了预测评估中‘最可信的问题难以复现，而最可复现的问题又易失去预测特征’的固有矛盾。通过模型知识截止日期与时间掩码的组合，数据集在保留事件真实答案的同时，严格限定了模型可访问的信息范围，从而有效区分真正的预测能力与事后的事实回忆。此外，数据集的构建框架具有高度可扩展性：任何已过时的预测基准，如FutureX-Past、过期ForecastBench题目或历史Metaculus记录，均可依据目标模型的知识截止日期被重新激活为无污染的训练样本，使得预测评估不再是一次性事件，而成为一种可累积的数据资产。这一特性赋予了数据集‘单调增长’的潜力，为下游的监督微调与强化学习提供了可控的信号源。

使用方法

使用OracleProto数据集时，研究者需首先根据待评估模型的知识截止日期，通过样本准入条件筛选出可用的预测实例。随后，在预定义的时间掩码环境下，模型通过工具层级的检索调用与内容级别的泄漏过滤，在有限步数与搜索预算内形成离散的最终答案预测。框架支持多次独立重复采样（默认3次），以评估预测的稳定性与一致性。评估体系采用分层打分策略，涵盖可解析性、单次预测正确性、多轮重复稳定性及模型级聚合表现，输出包括复合准确率、Cohen's κ一致性系数、格式技能得分及单正确预测成本等多维度指标。所有评估配置（如步数上限、搜索调用上限、提示模板、解析规则等）均以运行元数据形式记录，确保了评估过程的可审计性与完全可复现性。

背景与挑战

背景概述

OracleProto数据集由北京邮电大学马一丁、阮成云等研究人员于2026年提出，旨在解决大语言模型在时间序列预测评估中的核心悖论：现存基准要么因事件实时演化而不可复现，要么因预训练数据泄露而无法区分事实记忆与真实预测能力。该框架通过知识截止期对齐、时间遮掩与内容级泄露检测，将已解决事件重构为可复现、可审计的预测样本，在FutureX-Past子集上对六种当代大语言模型进行评测，实现了残差泄露率降至1%量级，为跨模型公平比较和下游微调强化学习提供了标准化数据集接口，标志着大语言模型预测评估从一次性实况评测向可积累数据资产的范式转变。

当前挑战

OracleProto面临的核心挑战在于三重信息边界管控。其一，领域问题层面，大语言模型预测能力评估需同时区分原生预测与事实回忆，但现有回顾性基准无法根除预训练数据泄露，即使采用模拟遗忘提示也无法替代真实知识边界。其二，构建过程中，动态评估基准随事件解决而失效，导致可复现性与可信度难以兼得；该数据集需在样本准入、工具层遮掩、内容检测与离散答案归一化等环节协同设计，确保同一语料库跨模型、跨日历年份的复现可比性。其三，检索结果中未来信息可能通过缓存页、聚合摘要等渠道渗入，须借助多层级防护将泄露率压至1%以下，同时避免因过度过滤而损失有效预测信号。

常用场景

经典使用场景

OracleProto作为面向大语言模型原生预测能力的可复现基准框架，其最经典的使用场景在于将已发生但位于模型知识截止日期之前的事件，通过时间掩码与知识边界控制重构为可重放的预测任务。研究者可利用该框架对任意大语言模型在离散答案空间上的预测质量进行标准化评估，在保证低泄露风险的前提下，精准区分模型是利用了参数化记忆还是真正具备基于证据的推理判断能力。

衍生相关工作

OracleProto衍生了一系列推动预测能力可训练化的经典工作。其框架设计的每一条样本均包含完整的检索轨迹、推理路径与最终答案，可直接构成监督微调与强化学习的训练对。受其启发，Time-R1通过基于规则的奖励课程在历史新闻上训练时序推理能力，OpenForecaster与OpenForesight则利用大规模离线新闻语料库进行泄露感知的端到端预测训练，使预测能力从大语言模型的偶然涌现行为转变为可系统训练和持续优化的原生技能。

数据集最近研究