OpenForesight

Hugging Face2025-12-28 更新2025-12-29 收录

下载链接：

https://huggingface.co/datasets/nikhilchandak/OpenForesight

下载链接

链接失效反馈

官方服务：

资源简介：

OpenForesight数据集是一个用于预测问题的数据集，这些问题是从带有检索增强提示的新闻文章中生成的。该数据集旨在评估AI模型利用相关上下文对未来事件进行预测的能力。数据集包含52,692个预测问题，分为训练集（52,183个问题）、验证集（207个问题）和测试集（302个问题）。问题来源于多个新闻媒体，涵盖2025年5月至8月的事件。数据集结构包括问题标题、背景信息、解决标准、答案类型、答案、新闻文章全文、发布日期等多个字段。数据生成过程涉及新闻文章处理、问题生成、检索增强和问题验证等步骤。数据集支持多种答案类型，如地理位置、人名、日期等。

创建时间：

2025-12-26

原始信息汇总

OpenForesight 数据集概述

数据集基本信息

名称: OpenForesight
许可证: MIT
主要任务类别: 文本生成、问答
语言: 英语
核心标签: 预测、问答、检索增强生成、新闻、贝叶斯推理
数据规模: 10K<n<100K

数据集内容与规模

总问题数: 52,692 个预测性问题
训练集: 52,183 个问题
验证集: 207 个问题
测试集: 302 个问题
时间覆盖范围: 2025年5月至8月的事件

数据结构与字段

数据集包含以下字段：

qid: 唯一问题标识符
question_title: 主要预测问题
background: 问题的背景信息
resolution_criteria: 问题解决标准的HTML格式描述
answer: 问题的真实答案
answer_type: 答案类型（例如："string (location)"、"string (name)"、"string (date)"）
url: 源新闻文章的URL
article_maintext: 新闻文章的全文内容
article_publish_date: 文章发布日期（YYYY-MM-DD格式）
article_modify_date: 文章最后修改日期（YYYY-MM-DD格式）
article_download_date: 文章下载日期（YYYY-MM-DD格式）
article_title: 新闻文章标题
article_description: 新闻文章描述/摘要
data_source: 数据生成过程的源标识符
news_source: 发布文章的新闻媒体
question_start_date: 预测问题的开始日期（YYYY-MM-DD格式）
resolution_date: 问题解决日期（YYYY-MM-DD格式）
prompt: 包含检索到的新闻文章的完整预测提示
prompt_without_retrieval: 用于基线比较的无检索文章提示

数据来源与划分

训练集来源

Hindustan Times
Irish Times
Forbes
CNN
DW

验证集来源

The Guardian

测试集来源

Al Jazeera
The Guardian
Time
NDTV
Fox News

答案类型

字符串（位置）: 地理位置、地点、场所
字符串（名称）: 人名、公司名、产品名
字符串（日期）: 具体日期或时间段
字符串: 一般文本答案

数据生成过程

文章处理: 收集和处理新闻文章以提取相关信息
问题生成: 语言模型根据文章内容生成预测性问题
检索增强: 检索相关新闻文章并将其纳入提示中
问题验证: 验证生成的问题是否确实由源文章解决（按日期）以及问题是否具体且正确
质量控制: 根据相关性和质量过滤问题

预期用途与评估

主要用途: 评估AI模型，特别是检索增强生成模型的预测能力
关键评估指标:
- 准确性
- 置信度校准
- 时序推理能力
- 检索影响（有/无检索上下文的性能比较）
- 领域知识理解

使用方式

可通过Hugging Face datasets 库加载使用： python from datasets import load_dataset dataset = load_dataset("nikhilchandak/OpenForesight")

搜集汇总

数据集介绍

构建方式

在预测性问答研究领域，OpenForesight数据集的构建体现了对新闻事件未来走向的系统性探索。该数据集通过自动化流程从多个国际新闻媒体（如《印度斯坦时报》、《福布斯》、CNN等）采集2024年至2025年的新闻报道，并运用语言模型基于文章内容生成预测性问题。构建过程包含文章处理、问题生成、检索增强与质量验证等多个环节，其中检索增强机制将相关新闻文本整合至提示中，以提供丰富的上下文信息。所有生成的问题均经过验证，确保源文章能在指定解决日期前提供答案，最终形成包含训练、验证与测试三个分片的标准化数据集，共计五万两千余条问题。

特点

OpenForesight数据集的核心特征在于其专注于非数值型预测问题，涵盖地理位置、人名、日期等多种答案类型，问题均源自真实新闻事件，具有明确的解决日期与判定标准。数据集结构设计精细，每条数据不仅包含问题标题、背景描述与答案，还提供了完整的原文内容、发布时间、新闻来源及两种不同形式的提示（含检索与不含检索），便于进行检索增强生成与基线模型的对比研究。其分片策略兼顾了来源多样性与时效性，训练集覆盖多时段多主题，验证集与测试集则聚焦于近期事件，为评估模型在时序推理与领域知识理解方面的能力提供了全面基准。

使用方法

为利用OpenForesight数据集进行预测能力评估，研究者可通过Hugging Face的datasets库直接加载该数据集，并分别访问训练、验证与测试分片。每条数据中的'prompt'字段提供了包含检索新闻的完整提示，可用于训练或测试检索增强生成模型；而'prompt_without_retrieval'字段则适用于基线模型对比。典型的使用流程包括加载数据、解析问题背景、提取答案及对应类型，并基于解决日期进行时序验证。该数据集支持对模型预测准确性、置信度校准、时序推理能力以及检索机制影响等多维度性能的量化评估，是推进预测性人工智能研究的重要工具。

背景与挑战

背景概述

在人工智能与预测科学交叉领域，事件预测能力是衡量模型认知水平的关键维度。OpenForesight数据集于2024年由研究人员构建，旨在通过新闻文章生成预测性问题，评估模型在检索增强提示下对未来事件的推理能力。该数据集涵盖超过五万个问题，源自多家国际新闻媒体，聚焦2025年5月至8月的事件，核心研究问题在于探索模型如何利用时序信息与外部知识进行准确预测，对推进检索增强生成与贝叶斯推理研究具有显著影响力。

当前挑战

该数据集致力于解决预测性问答领域的核心挑战，即模型如何整合动态新闻信息与不确定性进行未来事件推断。构建过程中的挑战包括：确保生成问题的时效性与答案可验证性，需严格依据文章发布日期与解决日期进行对齐；处理多源新闻数据的异构性，涉及格式标准化与内容质量控制；设计检索增强提示时需平衡上下文相关性与信息冗余，以支持模型进行精准概率推理。

常用场景

经典使用场景

在人工智能预测建模领域，OpenForesight数据集被广泛用于评估模型基于新闻文本进行未来事件预测的能力。该数据集通过检索增强提示机制，将大量新闻文章与预测问题关联，为模型提供丰富的上下文信息。经典应用场景包括训练和测试语言模型在时序推理、信息整合及不确定性处理方面的性能，尤其适用于探究模型如何利用外部知识源进行复杂预测任务。

衍生相关工作

围绕OpenForesight数据集，已衍生出多项经典研究工作，包括基于检索增强的预测模型架构设计、时序推理算法的优化以及预测不确定性量化方法的创新。这些工作进一步拓展了数据集在跨语言预测、多模态信息融合及自适应学习等方向的应用潜力，形成了以数据驱动为核心的预测人工智能研究脉络。

数据集最近研究