five

FutureX

收藏
arXiv2025-08-19 更新2025-08-22 收录
下载链接:
https://ysyml 1.github.io/The-Second-Half/
下载链接
链接失效反馈
官方服务:
资源简介:
FutureX是一个为评估大型语言模型(LLM)在预测未来事件方面的能力而设计的动态实时评估基准。它是目前最大的、最多样化的实时预测数据集,支持实时每日更新,并通过自动化流程收集问题并收集答案,从而消除数据污染。FutureX从2,008个网站中选取了195个网站作为数据来源,覆盖政治、经济、科技、体育、医疗等领域,旨在帮助LLM代理在复杂推理和预测方面达到专业人类分析师的水平。

FutureX is a dynamic real-time evaluation benchmark developed to assess the forecasting capabilities of Large Language Models (LLMs). As the largest and most diverse real-time forecasting dataset to date, it supports daily real-time updates, and collects both questions and answers via automated workflows to eliminate data contamination. FutureX selects 195 websites as its data sources from a pool of 2,008 sites, covering domains including politics, economics, technology, sports, healthcare and other sectors. This benchmark aims to assist LLM-powered AI Agents in attaining the proficiency of professional human analysts in complex reasoning and forecasting tasks.
提供机构:
字节跳动种子实验室,复旦大学,斯坦福大学,普林斯顿大学
创建时间:
2025-08-16
搜集汇总
数据集介绍
构建方式
FutureX数据集通过半自动化流程构建,每日从195个精选网站中收集未来预测问题,覆盖政治、经济、科技等11个领域。每个事件关联起始日期和解决日期,系统在起始日期自动收集智能体预测,解决日期后动态爬取真实结果进行评分。流程结合LLM智能体和人工专家审核,确保数据质量和实时性,同时通过随机化模板变量和过滤有害事件增强多样性和挑战性。
使用方法
研究者可通过自动化管道每日获取新事件,在指定起始日期运行LLM智能体生成预测,并在解决日期后接收系统自动评分。评估指标针对不同事件类型设计,包括准确率、F1分数及波动调整分数。该基准支持25种模型测试,涵盖基础LLM、搜索增强模型和深度研究智能体,需严格遵循时间窗口以确保评估有效性。
背景与挑战
背景概述
FutureX数据集由字节跳动Seed、复旦大学、斯坦福大学和普林斯顿大学的研究团队于2025年8月联合创建,旨在解决大语言模型代理在复杂未来预测任务中的评估空白。该数据集聚焦于动态环境下的信息整合与不确定性推理,覆盖政治、经济、金融、体育等11个领域,通过半自动化流水线实现每日实时更新,确保数据的时效性和多样性。其核心研究问题在于测试代理模型在真实世界信息流中的分析能力、多源数据合成能力以及前瞻性决策水平,为AI代理在专业级预测任务中的发展提供了关键基准。
当前挑战
FutureX面临的领域挑战在于未来预测任务本身的不确定性和动态性,要求模型具备实时信息检索、多模态推理和抗噪声能力。构建过程中的技术挑战包括:实时数据采集与验证的自动化实现、避免历史数据污染的逻辑泄漏问题、多领域事件的质量控制与标准化,以及高波动性开放答案的评估指标设计。此外,需应对虚假信息干扰和模型拒绝预测的异常处理,确保评估的公平性与可重复性。
常用场景
经典使用场景
在人工智能领域,FutureX数据集被广泛用于评估大型语言模型代理在复杂未来预测任务中的表现。该数据集通过自动化流程每日收集来自195个高质量网站的未来事件问题,涵盖政治、经济、科技等多个领域,确保评估的实时性和多样性。研究者利用FutureX测试模型在动态环境中的信息整合与推理能力,特别是在处理高波动性事件时的表现,从而推动智能代理向人类专家水平靠拢。
解决学术问题
FutureX解决了当前智能代理评估中数据污染和静态测试的局限性,为未来预测任务提供了首个大规模、动态且无污染的基准测试平台。该数据集有效评估模型在不确定性下的推理能力、多源信息整合能力以及实时适应能力,填补了现有基准在动态推理和实时信息处理方面的空白,为开发具备专业级分析能力的AI代理奠定了科学基础。
实际应用
在实际应用中,FutureX为金融分析、政策制定和商业决策等领域提供了可靠的智能代理评估工具。例如,在金融市场预测中,该数据集能够测试模型对股票价格、经济指标等未来事件的预测准确性,帮助机构筛选高性能分析代理。其每日更新的特性确保了评估结果与真实世界动态同步,为高风险决策提供实时支持。
数据集最近研究
最新研究方向
FutureX作为首个面向大语言模型智能体未来预测能力的动态实时评测基准,正推动该领域研究向实时信息整合与不确定性推理方向深化。其通过半自动化流水线从195个多领域权威网站每日采集未来事件问题,并采用前瞻性评估机制彻底杜绝数据污染,为智能体在金融、政治、科技等高动态场景中的预测能力提供可靠衡量标准。当前研究聚焦于智能体在开放环境下的多源信息融合能力、时序推理有效性以及对抗虚假信息的鲁棒性,尤其关注深度研究智能体在实时搜索效率与规划策略方面的优化。该基准通过分级难度任务(从基础选项识别到高波动性开放预测)系统评估智能体的核心认知能力,为构建人类专家级预测智能体提供了关键基础设施。
相关研究论文
  • 1
    FutureX: An Advanced Live Benchmark for LLM Agents in Future Prediction字节跳动种子实验室,复旦大学,斯坦福大学,普林斯顿大学 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作