WWTD-2025

Hugging Face2026-02-11 更新2026-02-12 收录

下载链接：

https://huggingface.co/datasets/LightningRodLabs/WWTD-2025

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为'What Would Trump Do'，旨在预测特朗普在2025年的行动和决策。它包含2,790个前瞻性预测问题，这些问题通过Lightning Rod SDK从2025年的相关新闻中自动生成，并利用实际发生的事件作为真实标签。数据集分为训练集（2,108个样本）和测试集（682个样本），采用时间分割以避免数据泄漏。每个样本包含唯一标识符、问题文本、正确答案（1表示'是'，0表示'否'）、预测日期、解决日期等信息。数据集适用于文本生成任务，特别关注政治预测和强化学习应用。经过微调的模型在预测准确性和校准误差方面均优于GPT-5，展示了数据集在训练高效预测模型方面的潜力。

创建时间：

2026-02-04

原始信息汇总

数据集概述：What Would Trump Do? (WWTD-2025)

基本信息

数据集名称：What Would Trump Do?
创建者：LightningRodLabs
许可证：MIT
任务类别：文本生成
主要语言：英语
标签：预测、政治、特朗普、未来即标签、强化学习
数据规模：1K<n<10K
数据条目总数：2,790

数据集描述

该数据集旨在训练AI模型预测特朗普政府的行动。它使用Lightning Rod SDK和前瞻性数据自动生成，核心方法是将“未来作为标签”。数据集包含从2025年特朗普相关新闻中生成的、具有高置信度真实标签的前瞻性预测问题。

数据生成与内容

生成方法：使用Lightning Rod SDK，通过指定种子新闻、指令和示例，自动生成关于特朗普行动、决策、立场和声明的二元预测问题。
问题示例：问题具有自包含、可通过网络搜索验证、具有新闻价值等特性，并包含具体日期。
数据划分：采用时间划分法以避免时间泄漏。最终划分为训练集2,108条，测试集682条。训练集基础率（答案为“是”的比例）为36.5%，测试集为32.4%。
额外测试集：包含一个test_no_ctx划分（682条），其问题与测试集相同但移除了上下文，用于评估模型在无信息情况下的不确定性表达能力。

数据集模式（Schema）

列名	类型	描述
`sample_id`	字符串	每个样本的唯一标识符
`prompt`	字典列表	聊天格式的提示
`question_text`	字符串	纯文本的预测问题
`answer_type`	字符串	答案类型（“binary”）
`answer_parser_type`	字符串	解析器类型（“binary”）
`reward_function_type`	字符串	奖励函数类型（“binary_brier”）
`correct_answer`	整数	真实答案：1（是）或0（否）
`prediction_date`	字符串	问题生成日期（ISO格式）
`resolution_date`	字符串	结果确定日期
`date_close`	字符串	问题截止日期
`search_query`	字符串	用于查找种子文章的搜索查询
`url`	字符串	源文章URL

相关资源

Lightning Rod SDK：https://github.com/lightning-rod-labs/lightningrod-python-sdk
未来即标签论文：https://arxiv.org/abs/2601.06336
基于结果的强化学习论文：https://arxiv.org/abs/2505.17989
数据集下载地址：https://huggingface.co/datasets/LightningRodLabs/WWTD-2025

搜集汇总

数据集介绍

构建方式

在政治预测与人工智能交叉领域，WWTD-2025数据集采用了一种前瞻性的数据构建范式。其核心方法在于将未来事件作为标注依据，通过Lightning Rod SDK自动化处理时序新闻数据。该流程始于对2025年特朗普相关新闻的周期性采集，随后利用指令引导的生成模型，从种子文章中提炼出可验证的二元预测问题。每个问题均配备由网络搜索确定的真实结果标签，并通过严格的时间划分策略，确保训练集与测试集之间不存在时间信息泄露，最终形成包含2,790个样本的时序数据集。

特点

该数据集在政治预测任务中展现出鲜明的结构性特征。其样本均为精心设计的二元预测问题，涵盖特朗普政府在政策、言论及外交等多维度的潜在行动，每个问题均关联具体的截止日期与可验证的新闻来源。数据集通过包含上下文新闻与无上下文两种测试设置，专门用于评估模型在信息完备与缺失情况下的预测校准能力。此外，数据集明确区分训练集与测试集的时间边界，并提供了完整的元数据，包括问题生成日期、解析日期及来源链接，为研究时间序列预测与模型不确定性量化提供了坚实基础。

使用方法

在应用层面，该数据集主要用于训练与评估面向政治事件的预测模型。研究者可直接加载数据集中已划分的训练与测试部分，其中每条样本均以对话格式呈现，包含问题文本、真实答案及相关新闻上下文。模型训练可采用基于Brier分数的强化学习框架，以优化预测概率的准确性与校准度。评估时，除常规的带上下文预测外，应特别关注模型在无上下文条件下的表现，以检验其不确定性表达能力。数据集的结构支持端到端的预测流程，便于复现前沿的“未来即标签”训练方法。

背景与挑战

背景概述

WWTD-2025数据集由Lightning Rod Labs于2025年创建，旨在通过自动化数据生成技术，构建一个专注于预测美国前总统唐纳德·特朗普未来行动的前瞻性问答数据集。该数据集依托“未来即标签”的创新理念，利用Lightning Rod SDK从2025年的新闻流中自动提取并生成2,790个具有时间戳的二元预测问题，其核心研究问题在于探索如何通过强化学习微调开源模型，以提升对复杂政治事件预测的准确性与校准性。这一工作不仅推动了时序预测与政治分析领域的交叉研究，也为小参数模型在特定领域超越大型通用模型提供了实证案例，彰显了高质量、自动化生成数据在定制化人工智能训练中的关键价值。

当前挑战

该数据集致力于解决政治事件预测领域的核心挑战，即如何在信息不完全、动态演变的现实环境中，对特定个体（如特朗普）的未来行动做出可靠的概率性预测。其构建过程面临多重技术难题：首先，自动化生成高质量预测问题需克服自然语言理解的模糊性，确保问题具备明确性、可验证性与时效性；其次，标注过程中必须严格避免时间泄漏，通过时序分割与过滤机制保证训练与测试数据的独立性；此外，模型训练需在有限数据规模下优化校准性能，以纠正神经网络普遍存在的过度自信倾向，从而在缺乏上下文信息时仍能合理表达不确定性。

常用场景

经典使用场景

在政治预测与决策分析领域，WWTD-2025数据集为研究特朗普政府行为模式提供了结构化基准。该数据集通过自动生成前瞻性二元预测问题，并利用未来事件作为真实标签，构建了时间序列上的因果推理任务。经典应用场景包括训练语言模型进行政治事件概率预测，评估模型在不确定性表达与校准误差方面的表现，从而推动预测科学在复杂社会动态中的精细化发展。

解决学术问题

该数据集有效应对了预测建模中标签稀缺与时间泄漏的学术挑战。通过'未来即标签'范式，将历史新闻转化为自监督训练数据，解决了传统方法依赖人工标注的瓶颈。其时间分割策略避免了数据泄漏，使模型能够学习真实世界事件的因果关联而非表面模式。这一框架为强化学习在序列决策中的应用提供了实证基础，显著提升了模型校准能力与不确定性量化水平。

衍生相关工作

该数据集衍生的经典研究包括《未来即标签》论文提出的自监督数据生成范式，以及《基于结果的强化学习》框架中Brier分数作为奖励信号的创新应用。相关工作进一步拓展了时序预测的元学习架构，开发了针对政治言论的多模态推理模型。这些成果被迁移至公共卫生事件预测、金融市场波动分析等领域，形成了跨学科的概率机器学习方法论体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集