OracleProto

Hugging Face2026-05-04 更新2026-05-05 收录

下载链接：

https://huggingface.co/datasets/MaYiding/OracleProto

下载链接

链接失效反馈

官方服务：

资源简介：

OracleProto 是一个用于评估语言模型在真实世界事件预测能力的数据集。数据集包含80个手工筛选的预测问题，涵盖三种问题类型（是/否、二元命名、多项选择）和两种选择类型（单选、多选）。数据以SQLite数据库格式提供，包含两个表：`forecast_eval_set_example`（80行数据）和`dataset_metadata`（提示重建配方）。每个问题都有明确的事件描述、选项列表、正确答案和解决日期。数据集适用于预测、推理、时间推理等任务，并提供了详细的提示重建配方和评估协议，以确保评估的一致性和可重复性。数据集采用MIT许可证发布。

OracleProto is a dataset designed to evaluate language models ability to predict real-world events. It contains 80 manually curated forecasting problems, covering three question types (yes/no, binary named, multiple choice) and two selection types (single-select, multi-select). The data is provided in SQLite database format with two tables: `forecast_eval_set_example` (80 rows of data) and `dataset_metadata` (prompt reconstruction recipes). Each question includes clear event descriptions, option lists, correct answers, and resolution dates. The dataset is suitable for forecasting, reasoning, and temporal reasoning tasks, and provides detailed prompt reconstruction recipes and evaluation protocols to ensure consistency and reproducibility. The dataset is released under the MIT License.

创建时间：

2026-05-02

原始信息汇总

OracleProto 预测评估数据集

数据集概览

字段	值
发布日期	2026-04-29
数据行数	80
数据划分	`train` (80行)；单划分，作为留出评估集
问题解决日期范围	2026-03-12 → 2026-04-14
问题类型	`yes_no`, `binary_named`, `multiple_choice`
选择类型	`single` (一个正确答案字母), `multi` (一个或多个正确答案字母)
数据库文件	`forecast_eval_set_example.db` (SQLite 3, ~52 KB)
文件中的表	`forecast_eval_set_example` (80行), `dataset_metadata` (1行)
许可证	MIT
上游来源	HuggingFace forecasting questions (等级1+2), 322条原始数据筛选为80条

问题类型分布

`question_type`	`choice_type`	行数
`yes_no`	`single`	37
`binary_named`	`single`	3
`multiple_choice`	`single`	32
`multiple_choice`	`multi`	8
总计		80

文件结构

OracleProto/ ├── forecast_eval_set_example.db # SQLite数据库文件（数据集主体，~52 KB） ├── forecast_eval_set_example.csv # 行表的CSV导出文件；80行+表头（~18 KB） ├── README.md # 本文件 ├── LICENSE # MIT许可证 └── .gitattributes # 标准HF二进制属性文件

数据库模式

表 `forecast_eval_set_example`（数据行）

列名	类型	描述
`id`	TEXT	稳定的上游问题ID，主键
`choice_type`	TEXT	`single`或`multi`，根据答案字母数推导
`question_type`	TEXT	`yes_no`, `binary_named`, `multiple_choice`之一
`event`	TEXT	预测事件的自然语言描述
`options`	TEXT	选项标签的JSON数组
`answer`	TEXT	正确答案字母编码
`end_time`	TEXT	解决日期 (`YYYY-MM-DD`)

表 `dataset_metadata`（配方）

列名	类型	描述
`dataset_name`	TEXT	数据集名称
`split_name`	TEXT	划分名称
`table_name`	TEXT	表名
`row_count`	INTEGER	行数
`imported_at_utc`	TEXT	导入时间
`features_json`	TEXT	提示模板、输出格式等元数据

提示重建规范

静态片段

agent_role: "You are an agent that can predict future events."
guidance: 禁止使用其他格式，禁止拒绝预测，必须基于最佳可用数据做出清晰预测

主模板

{agent_role} The event to be predicted: "{event} (resolved around {end_time} (GMT+8)).{outcomes_block}"

IMPORTANT: Your final answer MUST end with this exact format: {output_format} {guidance}

输出格式（四种）

yes_no: oxed{Yes} 或 oxed{No}
binary_named: oxed{<options[0]>} 或 oxed{<options[1]>}
multiple_choice (single): oxed{A}（仅单个字母）
multiple_choice (multi): oxed{A} 或 oxed{B, C}（逗号分隔）

答案解析规则

取模型回复中最后一个 oxed{...} 子串
yes_no: 不区分大小写，Yes→A, No→B
binary_named: 不区分大小写，匹配选项文本
multiple_choice: 按逗号和空格分割，验证每个字母为有效选项索引
分数：严格集合相等性比较

样本数据行

json { "id": "699d9ffc098cca008728b6f0", "choice_type": "single", "question_type": "yes_no", "event": "2026年1月美国PCE年通胀率会大于2.9%吗？", "options": ["Yes", "No"], "answer": "B", "end_time": "2026-03-13" }

json { "id": "69a2e39e5692ef005cdbf2d3", "choice_type": "single", "question_type": "binary_named", "event": "美国还是以色列会先打击伊朗？", "options": ["US", "Israel"], "answer": "B", "end_time": "2026-03-31" }

json { "id": "6995b1073ea64b005b11f285", "choice_type": "single", "question_type": "multiple_choice", "event": "2025-26赛季哪支男子篮球队将赢得Big 12联盟锦标赛冠军？", "options": ["Arizona", "Baylor", "Brigham Young University (BYU)", "Houston", "Iowa State", "Kansas", "Kansas State"], "answer": "A", "end_time": "2026-03-14" }

json { "id": "698f198bda7a8b006575444c", "choice_type": "multi", "question_type": "multiple_choice", "event": "哪些电影将赢得多个奥斯卡奖？（2026年）", "options": ["One Battle After Another", "Sinners", "Frankenstein", "KPop Demon Hunters", "F1", "Sentimental Value", "Hamnet", "Marty Supreme", "The Secret Agent", "Avatar: Fire and Ash", "Train Dreams", "Bugonia", "Blue Moon", "It Was Just An Accident"], "answer": "A, B, C, D", "end_time": "2026-03-15" }

搜集汇总

数据集介绍

构建方式

OracleProto数据集的构建立足于对真实世界事件的精准预测需求，其基础来源于HuggingFace上已有的预测问题集，经过严格的手工筛选与精炼，从322个原始问题中萃取出80个高质量样本。每个样本均承载着明确的答案解析日期，时间跨度从2026年3月12日至4月14日。数据集以SQLite数据库文件为唯一载体，将80条记录与提示重构的元数据封装于同一文件之中，同时提供CSV格式的导出副本，便于轻量级访问。构建过程尤为注重语言表述的时效锚定、单位明确性与二元框架的无歧义性，所有事件的描述均经过人工编辑与优化，以确保模型预测的基准可靠且可复现。

特点

该数据集最显著的特点在于其针对大型语言模型预测能力的评估进行了精细设计。样本类型涵盖是非题、二元命名选择题与多项选择题，其中选择题进一步区分为单选与多选模式，总计形成四种不同的提问风格。每个问题均包含标准选项标签与规范答案，答案以字母编码形式存储，映射关系严格遵循字母表顺序。特别设计了单表元数据存储机制，其中`dataset_metadata`表保存了完整的提示重构配方，包括四个输出格式模板、结果展示规则以及智能体角色定义。此外，数据集引入了严格的污染控制与泄露预防机制，通过声明模型知识截止日期、时间屏蔽检索工具等措施，保障评估环境的纯净性。

使用方法

使用OracleProto数据集进行模型评估时，推荐采用其配套的评估框架以实现信息边界纪律的无缝融合。研究者可通过`sqlite3`库直接读取数据库文件，获取80条记录及其元数据中的提示重构配方，并严格遵循配方中定义的字节级稳定的模板进行提示生成。对于不同问题类型与选项模式，需依据`question_type`和`choice_type`字段选择对应的输出格式，确保结果为`\boxed{}`形式的规范框结构。评估协议要求为每个模型声明知识截止日期，过滤不适用问题，并对检索工具实施时间屏蔽。最终评分采用严格集合相等原则，比较模型输出的字母集与标准答案的精确匹配度，同时支持可选的概率校准指标计算。

背景与挑战

背景概述

OracleProto数据集于2026年4月由MaYiding研究团队发布，旨在为大语言模型在现实世界事件预测任务中的时序推理能力提供标准化评估基准。该数据集精心筛选了80道涵盖二元判断、命名实体二选一及多项选择等类型的手工策展预测问题，其决议日期分布于2026年3月至4月之间。作为针对大语言模型评测中数据污染与时间泄漏问题的重要应对工具，OracleProto通过严格的提示重构配方、知识截止期声明机制以及多层级信息边界约束，为时序预测领域的模型评估树立了新的规范，对推动大语言模型在预测性推理任务中的可信发展具有显著影响力。

当前挑战

OracleProto数据集所解决的领域挑战在于大语言模型进行时序预测时面临的数据污染与时间泄漏问题，即模型可能因训练数据包含未来信息而获得不公平的预测优势。构建过程中面临的挑战包括：需要从322条原始预测问题中精心筛选并手工策展80条高质量题目，确保每个问题的决议日期精确且事件描述具有明确的时间锚定和二元框架；设计复杂的提示重构配方以保持字节级稳定性，同时建立多层级信息边界约束机制，包括知识截止期声明、检索工具时间屏蔽、独立内容审计以及禁止原生浏览功能，从而构建一个可公平比较模型时序推理能力的评估框架。

常用场景

经典使用场景

OracleProto数据集作为面向时序推理与未来事件预测的评估基准，其经典使用场景集中于对大型语言模型（LLM）在时间敏感型问答任务上的能力进行标准化评测。该数据集包含80个经过精心筛选的真实世界事件预测问题，涵盖二分类、命名实体二元选择及多选等多种题型，并严格设定了2026年3月至4月的解析时间窗口。研究者通常利用该数据集对比不同LLM在信息边界约束下的预测准确性，尤其关注模型是否能依据截止日期前的已知信息做出合理推断，而非依靠训练数据中的后续知识。这种设计使其成为评估模型时间泛化能力和数据污染控制水平的理想工具。

衍生相关工作

OracleProto数据集的发布催生了多项具有深远影响的衍生工作，构成了一个围绕时序预测与污染控制的研究生态。其中，最受瞩目的当属OracleProto评估框架本身，它定义了五层信息边界防护机制（L1至L5），从知识截止日期声明到检索内容审计，为后续研究树立了方法学标杆。随后，相关研究团队基于此范式开发了扩展评测集，引入更复杂的事件类型与跨模态数据。此外，部分工作专注于改进模型的概率校准能力，通过引入信念表达协议（BELIEF_PROTOCOL）实现更细粒度的预测不确定性量化。这些衍生成果共同推动了语言模型从静态知识问答向动态环境适应性的关键转型，持续重塑着人工智能评估领域的前沿边界。

数据集最近研究