rajatagarwal457/gdelt-forecast-freeform
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/rajatagarwal457/gdelt-forecast-freeform
下载链接
链接失效反馈官方服务:
资源简介:
GDELT-Forecast Free-form数据集包含924个自由形式的预测问题,这些问题来自GDELT 2.0语料库(2025年8月至2026年4月)中的新闻文章聚类。每个问题都配有原始种子事件文章、检索到的前5篇证据文章(日期严格早于问题创建日期)和经过验证的正确答案。数据集用于训练和评估基于大型语言模型(LLM)的预测模型,特别是在非二元问题上。答案类型包括名称(402个)、数字(370个)、自由形式(140个)和日期(12个)。数据集构建过程与gdelt-forecast-binary类似,但在问题生成阶段使用了不同的答案类型。数据集遵循严格的预测立场,要求在使用时尊重问题开始日期的截止点。由于答案表达的多样性,精确匹配不适用于大多数行,建议使用模糊判断(如GPT-4o)来评分预测结果。
The GDELT-Forecast Free-form dataset contains 924 free-form forecasting questions generated from clusters of news articles in the GDELT 2.0 corpus (Aug 2025 – Apr 2026). Each question is paired with the original seed-event articles, top-5 retrieved evidence articles dated strictly before the question creation date, and a verified ground-truth answer. The dataset is intended for training and evaluating LLM-based forecasting models on non-binary questions. Answer types include name (402), number (370), free_form (140), and date (12). The dataset was built using a similar pipeline as gdelt-forecast-binary but with non-yes/no answer types assigned during question generation. It adheres to a strict forecasting posture, requiring respect for the question_start_date cutoff. Due to high answer phrasing variance, exact-match scoring is not recommended; instead, a fuzzy judge (e.g., GPT-4o) should be used to score predictions.
提供机构:
rajatagarwal457
搜集汇总
数据集介绍

构建方式
该数据集基于GDELT 2.0语料库中2025年8月至2026年4月间的新闻文章聚类,通过一个五阶段流水线构建。在问题生成阶段(即第三阶段),GPT-4o根据每个聚类对应事件的性质,为非二元类问题指派答案类型(包括名称、数字、自由形式及日期)。每个问题均配有其原始种子事件文章、严格在问题创建日期之前检索到的前五篇证据文章,以及经过验证的基准答案。
特点
数据集包含924个自由形式预测问题,答案空间开放,覆盖命名实体、数值、日期及简短叙述性答案,难度显著高于二元类问题。其答案类型分布多样,以名称类(402个)和数字类(370个)为主,自由形式(140个)和日期类(12个)为辅。由于答案表述存在高度多样性,精确匹配评估方式不适用,需依赖模糊评判机制(如GPT-4o)对预测进行评分。
使用方法
该数据集适用于训练和评估大语言模型在严格预测姿态下的非二元类预测能力。使用时需严格遵守问题创建日期的截断限制,在构建检索时仅采用该日期之前的证据。对于答案的评判,推荐采用OpenForecaster风格的GPT-4o评判提示,其中数值答案允许±1%的相对误差,名称和自由形式答案可更为具体或进行同义改写,但须覆盖相同信息内容。
背景与挑战
背景概述
GDELT-Forecast Free-form数据集由Rajat Agarwal与Anthral Labs于2026年创建,依托GDELT 2.0新闻语料库,聚焦于开放域预测任务的评估与训练。该数据集包含924个自由形式预测问题,涵盖命名实体、数字、日期及简短叙述性答案,旨在突破传统二元分类预测的局限,推动大语言模型在严格时间截断条件下的非二元推理能力研究。作为gdelt-forecast-binary的姊妹数据集,它填补了开放答案空间预测基准的空白,为时序推理与事件演化建模提供了更贴近真实世界的测试环境,对新闻驱动的预测评估领域具有显著的标杆意义。
当前挑战
该数据集面临的核心挑战源于其开放答案空间特性:模型需生成正确的名称、数字或短语而非选项选择,这要求精确的语义匹配能力,而精准的字符串匹配几乎不可行,必须依赖如GPT-4o的模糊评判器进行评分,增加了评估成本与主观性。构建过程中,从GDELT新闻聚类中自动生成非二元问题面临答案类型多样性(如名称与自由形式)与表述变体问题,同一事实可有多种合法表达,导致答案标注与验证困难。此外,严格时间截断的预测姿态要求模型仅基于问题创建日期前的证据进行推理,进一步加剧了信息时效性与检索精度的挑战。
常用场景
经典使用场景
GDELT-Forecast Free-form数据集主要服务于非二元形式的时间序列预测任务,专注于开放答案空间下的严格预测评估。该数据集包含924个从GDELT 2.0新闻聚类中提取的自由形式预测问题,涵盖实体名称、数字、日期及简短叙述等回答类型,每个问题均配有时间上的凭证事件和严格截断的检索证据。常见的使用方式是利用大语言模型在给定截止日期前的证据文本基础上,生成准确的开放形式预测,而非简单的二选一判断,这对模型的时序推理和具象知识生成能力提出了更高要求。
衍生相关工作
围绕该数据集已催生出一系列旨在提升语言模型开放形式预测能力的衍生工作。研究者借鉴OpenForecaster的评价范式,开发了基于GPT-4o的模糊评判工具以应对非精确匹配场景下的答案评估难题。此外,该数据集与同源的二元预测基准gdelt-forecast-binary形成了互补评估体系,催生了融合二分类与开放形式预测的统一模型架构研究,以及采用检索增强生成策略来强化模型在严格截断条件下获取时新证据的技术路径,推动了预测型语言模型在学术评价与实用效能上的协同演进。
数据集最近研究
最新研究方向
该数据集聚焦于开放域时间预测的前沿挑战,通过构建924道非二元预测问题(涵盖实体、数字、日期及短文本回答),推动大语言模型从简单的是/否判断向复杂的开放域推理能力演进。其严格的时间截断设计(仅使用问题创建前的证据文章)模拟了真实预测场景中的信息壁垒,为评估模型在时空推理、证据整合与答案模糊匹配方面的能力提供了高难度基准。结合GDELT 2.0新闻事件聚类,该研究不仅响应了智能体在政治、经济等动态领域进行前瞻性分析的迫切需求,更通过GPT-4o模糊裁判机制解决了非精确匹配的评估瓶颈,预示着下一代预测系统将超越封闭式分类任务,迈向具备结构化推理能力的新型决策范式。
以上内容由遇见数据集搜集并总结生成



