PROPHET

Name: PROPHET
Creator: 北京大学，北京师范大学，广州大学，高级大数据研究所，北京航空航天大学
Published: 2025-04-02 16:57:42
License: 暂无描述

arXiv2025-04-02 更新2025-04-07 收录

下载链接：

https://github.com/TZWwww/PROPHET

下载链接

链接失效反馈

官方服务：

资源简介：

PROPHET是一个包含可推断性预测问题的未来事件预测基准数据集，由北京大学等机构创建。该数据集收集了近期热门的预测问题，并通过因果关系干预 likelihood（CIL）方法筛选出可推断的问题。数据集旨在为事件预测系统提供一个更为准确的评估，涵盖多个领域的预测任务。

PROPHET is a benchmark dataset for future event prediction containing inferable prediction problems, which was created by Peking University and other institutions. The dataset collects recently popular prediction questions, and screens out inferable ones using the Causal Intervention Likelihood (CIL) method. It aims to provide a more accurate evaluation for event prediction systems, covering prediction tasks across multiple domains.

提供机构：

北京大学，北京师范大学，广州大学，高级大数据研究所，北京航空航天大学

创建时间：

2025-04-02

搜集汇总

数据集介绍

构建方式

PROPHET数据集的构建过程遵循严谨的科学方法，首先从Metaculas和Manifold平台收集近期热门预测问题，确保问题涵盖科学突破、社会经济趋势等多元领域。通过GPT4o-mini生成三类新闻检索查询（实体查询、事件解析查询、历史相似事件查询），并利用MediaCloud开源平台获取相关新闻。为确保数据质量，采用GPT4o-mini二次过滤，保留每个问题最相关的100篇新闻。核心创新在于提出因果干预似然（CIL）指标，通过因果推断量化每篇新闻对问题答案的支持程度，最终筛选出可推断性达标的问题形成基准集。

特点

PROPHET数据集具有三大核心特征：其一，通过CIL指标严格验证问题的可推断性，确保每个预测问题均有充分新闻依据支持，区别于传统RAG基准中存在的非可推断性问题；其二，数据时效性强，所有问题均来自2024年8月前的最新趋势预测，并建立持续更新机制；其三，采用双层结构设计，L1包含99个完全可推断问题作为主评测集，L2包含53个需补充信息的问题，更贴近现实预测场景。新闻数据平均时间跨度达16.54个月，为模型提供充足的历史参考。

使用方法

使用PROPHET基准需遵循标准化流程：首先加载问题及其关联新闻集，通过检索模型（如Naive RAG、HyDE等）获取相关新闻；随后采用推理模型（如ScratchPAD、Long-CoT）基于检索结果进行预测。评测时需计算Brier分数衡量预测准确度，同时可结合CIL分数分析新闻支持度。针对研究需求，可选择单独测试L1集验证模型在理想条件下的性能，或联合测试L1+L2集模拟真实场景。该基准特别适合探究大语言模型在时序推理、因果推断方面的能力边界。

背景与挑战

背景概述

PROPHET数据集由北京大学等机构的研究团队于2024年提出，旨在解决未来事件预测领域的关键挑战。该数据集聚焦于基于检索增强生成（RAG）框架的可推断性预测问题，通过因果干预似然估计（CIL）量化新闻事件与预测问题的因果关联度。其创新性体现在首次将因果推理引入预测问题可推断性验证，填补了传统预测基准如Metaculus和Manifold在理性支持度验证方面的空白。作为首个具备严格可推断性验证的预测基准，PROPHET为金融、气候科学等领域的时序预测研究提供了标准化评估工具。

当前挑战

该数据集面临双重挑战：在领域问题层面，需解决未来事件预测中信息不完整与因果链隐晦的核心难题，传统RAG方法因无法区分有效/无效论据而导致预测偏差；在构建层面，需克服新闻事件与预测问题间复杂因果关系的建模困难，研究者通过时间窗口假设和结构化概率计算降低因果图构建复杂度，但LLM概率估算的稳定性仍是技术瓶颈。此外，数据动态性要求持续更新以保持时效性，而多领域事件的专业性验证也增加了标注成本。

常用场景

经典使用场景

PROPHET数据集在人工智能领域中被广泛用于评估基于大型语言模型（LLM）的未来事件预测系统。通过结合检索增强生成（RAG）技术，该数据集能够模拟真实世界中的事件预测场景，帮助研究者测试模型在复杂推理和信息整合方面的能力。其独特的因果干预似然（CIL）指标确保了问题的可推断性，为模型性能提供了可靠的基准测试环境。

解决学术问题

PROPHET数据集解决了未来事件预测研究中一个关键问题：如何确保预测问题具备足够的可推断性。传统RAG基准往往忽略支持性证据的充分性，导致部分问题无法通过检索到的信息合理推断。通过引入CIL指标，PROPHET有效筛选出那些能够通过现有新闻合理推导答案的问题，为模型评估提供了更加严谨和科学的依据。这一创新显著提升了未来预测研究的可靠性和可重复性。

衍生相关工作

PROPHET数据集的推出催生了一系列相关研究工作。在方法层面，研究者开发了基于CIL指标的改进型检索算法和推理框架。在应用层面，衍生出了面向特定领域的预测系统，如金融领域的AlphaFin和气候预测领域的相关模型。同时，该数据集也促进了多模态预测系统的研究，将文本信息与其他数据类型结合以提升预测准确性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集