rajatagarwal457/gdelt-forecast-binary

Name: rajatagarwal457/gdelt-forecast-binary
Creator: rajatagarwal457
Published: 2026-04-25 08:56:10
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/rajatagarwal457/gdelt-forecast-binary

下载链接

链接失效反馈

官方服务：

资源简介：

GDELT-Forecast Binary数据集包含1,215个二元（是/否）预测问题，这些问题是从GDELT 2.0语料库（2025年8月至2026年4月）中的新闻文章聚类生成的。每个问题都与原始种子事件文章、在问题创建日期之前检索到的前5篇证据文章以及已验证的答案配对。数据集旨在用于训练和评估基于大型语言模型（LLM）的预测模型，要求模型仅使用问题创建日期之前公开可用的新闻进行预测。数据集的构建过程包括五个阶段：政治/地缘政治过滤、事件聚类、问题生成、证据检索和聚合。数据集的模式（schema）详细列出了每个字段的类型和描述。此外，数据集还提供了统计信息、严格预测姿态的要求、已知限制和引用信息。

GDELT-Forecast Binary contains 1,215 yes/no forecasting questions generated from clusters of news articles in the GDELT 2.0 corpus (Aug 2025 – Apr 2026). Each question is paired with the original seed-event articles, top-5 retrieved evidence articles dated strictly before the question creation date, and a verified ground-truth answer. The dataset is intended for training and evaluating LLM-based forecasting models in a strict forecasting posture — the model sees only news that was publicly available before the questions creation date, then predicts the resolution. The dataset was built through a five-stage pipeline over the GDELT 2.0 corpus, including politics/geopolitics filtering, event clustering, question generation, evidence retrieval, and aggregation. The schema details each fields type and description. Additionally, the dataset provides statistics, strict forecasting posture requirements, known limitations, and citation information.

提供机构：

rajatagarwal457

搜集汇总

数据集介绍

构建方式

该数据集基于GDELT 2.0语料库中约3170万篇新闻文章，采用五阶段流水线构建。首先，通过GPT-4o-mini对文章进行政治与地缘政治主题分类，仅保留约2%的相关文章。随后，利用相似度图方法将描述同一事件的文章聚类为2721个大小为3至5的簇。在每个簇上，GPT-4o生成一个结局时间严格晚于簇内最新文章日期的预测问题，并确保源文章对答案一致。接着，通过TF-IDF与OpenAI嵌入的FAISS检索结合OpenAI重排序，为每个问题提取5篇严格早于问题创建日期的证据文章。最终仅保留证据文章数不少于5条的问题，未进行相似性去重，供下游使用者自行处理。

特点

该数据集包含1215个二元（是/否）预测问题，问题涵盖2025年8月至2026年3月的时间范围，中位数预测跨度为约14天。每个问题均配有原始种子事件文章、严格按时间截止日期筛选的5篇证据文章以及经过验证的正确答案。数据集严格遵循“谨慎预测姿态”，确保模型仅能看到问题创建日期之前的公开新闻信息，避免时间泄露。答案分布大致为60%肯定与40%否定，且绝大多数问题（1212个）的源文章答案一致。此外，数据集标注了问题起始日期、解决日期、答案类型及质量标志等丰富字段。

使用方法

该数据集主要用于训练与评估大语言模型在严格时间截止条件下的预测能力。使用时，模型需仅依赖问题创建日期之前的新闻证据进行推理，不得引入该日期或之后的任何信息。用户可自行构建检索管道，但必须尊重`question_start_date`这一截止点，防止信息泄露。建议配合无上下文基线实验以评估模型是否依赖先验知识。若需去除近似重复问题，可对`question_title`进行嵌入并丢弃余弦相似度≥0.85的配对。数据集以CC-BY-4.0许可发布，引用时需同时标注本数据集与GDELT语料库。

背景与挑战

背景概述

在时序推理与事件预测领域，利用大规模新闻语料构建可验证的预测基准是评估大语言模型（LLM）动态推理能力的关键路径。GDELT-Forecast Binary数据集由Anthral Labs的Rajat Agarwal等人于2026年创建，基于GDELT 2.0语料库中约3170万篇新闻文章，通过五阶段流水线精心构建了1215个二值预测问题。该数据集严格遵循“前瞻性预测”范式，确保模型仅能访问问题创建日期之前的公开新闻，从而避免了信息泄露。该数据集以其严密的截止机制、多源验证的标注答案以及对LLM时间动态推理能力的精准测试，在预测评估领域树立了重要标杆，为后续研究提供了可靠且可复现的基准。

当前挑战

该数据集所解决的领域核心挑战在于：现有预测基准往往因信息时间线混乱或答案来源不可控，导致模型通过记忆而非推理做出判断。GDELT-Forecast Binary通过严格的日期截止策略和源头一致性检验，迫使模型在仅有历史证据的条件下进行逻辑推演，从而真实衡量其时序推理能力。在构建过程中，面临大规模噪声过滤、事件聚类准确性、以及多源文章答案一致性校验等难题。例如，仅有约2%的新闻通过主题分类筛选，需从剩余约62万篇中精准识别相同事件簇；此外，在5个问题中，种子文章隐含的答案并不一致，标注者需额外甄别，反映了多源信息融合中固有的语义冲突挑战。

常用场景

经典使用场景

GDELT-Forecast Binary 数据集专为评估与训练大语言模型在严格时间截断条件下的预测能力而设计。其核心使用场景在于构建一个时序敏感的二分类预测任务：模型需仅基于问题创建日期之前的公开新闻证据，对诸如政治事件走向、地缘冲突演变等议题做出“是/否”式预判。每个样本均配有时间戳明确的种子新闻、限定日期的检索证据及经过验证的真实答案，确保了评估环境的严谨性，使其成为检验模型时序推理与信息时效性感知能力的经典基准。

实际应用

在实际应用层面，GDELT-Forecast Binary 数据集可被部署于监控和预警系统中，例如用于政治风险分析、金融市场波动预判、自然灾害响应评估及公共卫生事件趋势推测等领域。企业或政府机构可借助基于该数据集训练的模型，自动从每日更新的新闻流中识别潜在危机信号，生成早期预警报告。其基于严格时间截断的设计确保了预测的时效性，避免了事后信息的污染，从而为决策者提供更可靠的实时情报支持，提升应对复杂局势的前瞻性能力。

衍生相关工作

该数据集的发布催生了多个方向的衍生研究工作。其中最直接的工作包括构建与GPT-4o等主流模型性能对比的基线系统，以及开发针对时间敏感预测的检索增强生成架构。此外，研究团队还推出了姊妹数据集gdelt-forecast-freeform，包含924个非二分类的开放式问题，覆盖人名、数量、日期等类型，进一步拓展了预测多样性。这些工作共同构成了一个完整的新闻预测评估家族，为探索模型在严格时间约束下的泛化能力、因果推理与多模态信息融合提供了系统性平台。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集