FORECAST
收藏arXiv2025-02-27 更新2025-03-01 收录
下载链接:
http://www.metaculus.com/
下载链接
链接失效反馈官方服务:
资源简介:
FORECAST数据集是由剑桥大学的研究团队构建的,包含2256个预测问题,涵盖政治、经济、科学和技术等多个领域。数据集的问题分为三种类型:布尔问题、时间框架预测和数量估计。每个问题都有一个明确的解决方案、一个金标准置信度分数以及最终的人类集体预测。数据集旨在评估模型对未来事件进行预测及其置信度评估的能力。
The FORECAST dataset was constructed by a research team at the University of Cambridge. It contains 2256 forecasting questions spanning multiple domains including politics, economics, science and technology. The questions in the dataset are divided into three types: boolean questions, time-frame forecasting, and quantity estimation. Each question comes with a clear solution, a gold-standard confidence score, and the final human collective prediction. This dataset is designed to evaluate a model's ability to forecast future events and assess the confidence of its predictions.
提供机构:
剑桥大学
创建时间:
2025-02-27
搜集汇总
数据集介绍

构建方式
FORECAST数据集的构建旨在评估模型对未来事件的预测能力及其对这些预测的置信度。数据集涵盖了多种预测场景,包括布尔问题、时间框架预测和数量估计,以实现预测准确性和置信度校准的全面评估。数据源来自Metaculus,一个在线预测平台,收集了来自各种领域的预测者提交的概率预测。FORECAST仅包含具有明确解决标准和至少100个预测的具有统计可靠性的问题。
特点
FORECAST数据集的独特之处在于它不仅强调预测准确性,还包括置信度校准,并涵盖了多样化的预测任务。数据集包括2256个预测问题,涉及政治、经济、科学和技术等领域。每个问题都包括一个已解决的结局、一个金标准置信度分数和一个在解决之前的最终Metaculus社区预测。数据集被分为65%的训练、10%的验证和25%的测试。
使用方法
FORECAST数据集的使用方法包括评估模型的预测准确性和置信度校准。对于布尔问题,使用标准的分类指标(如准确性和F1分数)来评估预测性能,并使用修改后的Brier分数来评估置信度校准。对于时间框架预测,使用绝对天误差(ADE)来衡量预测准确性,并使用连续排名概率分数(CRPS)来评估置信度校准。对于数量估计,使用绝对百分比误差(APE)和平均绝对误差(MAE)来评估预测性能,并使用CRPS来评估置信度校准。
背景与挑战
背景概述
预测未来事件是各个领域的重要任务,如科技和经济。然而,现有的预测基准大多缺乏全面的置信度评估,只关注有限的问题类型,并且通常包含不符合现实世界人类预测需求的人工问题。为了解决这些差距,我们引入了FORECAST(未来结果推理和置信度评估)基准,该基准评估模型进行预测及其置信度的能力。FORECAST涵盖了涉及布尔问题、时间预测和数量估计的多种预测场景,使能够对预测精度和置信度校准进行全面的评估,以用于现实世界的应用。
当前挑战
FORECAST数据集的构建和评估面临以下挑战:1) 所解决的领域问题的挑战:现有的预测基准大多缺乏全面的置信度评估,只关注有限的问题类型,并且通常包含不符合现实世界人类预测需求的人工问题。2) 构建过程中所遇到的挑战:FORECAST数据集的构建过程需要解决如何从众包预测中提取置信度,以及如何处理不同预测类型(布尔问题、时间预测和数量估计)的评价指标。
常用场景
经典使用场景
FORECAST数据集被广泛应用于自然语言处理领域,特别是在评估大型语言模型(LLM)对未来事件预测的准确性和置信度方面。该数据集包含了广泛的预测场景,包括布尔问题、时间预测和数量估计,为研究人员提供了一个全面的评估框架,以便了解模型在预测未来事件时的表现。这些场景模拟了现实世界中的预测需求,有助于模型在实际应用中的性能提升。
实际应用
FORECAST数据集在实际应用场景中具有广泛的应用价值。在金融领域,可以用于预测市场趋势和股价变动;在科技领域,可以用于预测新技术的发展趋势和产品发布时间;在公共政策领域,可以用于预测社会事件的发生概率和政策实施效果。FORECAST数据集的广泛应用,有助于提高预测模型的准确性和可靠性,为决策者提供更有效的预测信息。
衍生相关工作
FORECAST数据集的发布,推动了相关研究领域的进一步发展。基于FORECAST数据集,研究人员可以开发新的预测模型和评估方法,以提升模型的预测性能和置信度评估能力。此外,FORECAST数据集还可以用于研究人类预测行为和模型预测行为之间的差异,为预测模型的改进提供新的思路。随着FORECAST数据集的不断完善和应用,相关研究将会取得更多的成果。
以上内容由遇见数据集搜集并总结生成



