GolfForecasting
收藏Hugging Face2026-02-12 更新2026-02-13 收录
下载链接:
https://huggingface.co/datasets/LightningRodLabs/GolfForecasting
下载链接
链接失效反馈官方服务:
资源简介:
Golf Forecasting Dataset 是一个包含 4,033 个关于职业高尔夫二元预测问题的数据集,涵盖 PGA Tour、LIV Golf、LPGA、DP World Tour、大型锦标赛、Ryder Cup 等多个赛事。数据采用 Future-as-Label 方法生成,基于 2024 年 6 月至 2026 年 1 月发布的新闻文章,并通过网络搜索验证二元结果标签。数据集分为训练集(3,178 个样本)和测试集(855 个样本),其中训练集的肯定回答占比 33.8%,测试集占比 39.6%。数据集包含多个主题,如 European Tour golf、LIV Golf、LPGA 等。数据字段包括样本 ID、完整提示、问题文本、正确答案(1.0 表示是,0.0 表示否)、预测日期、解决日期、截止日期、搜索查询和源文章 URL。适用于文本生成和预测任务,特别是高尔夫相关领域的预测研究。
创建时间:
2026-01-31
原始信息汇总
Golf Forecasting Dataset 数据集概述
数据集基本信息
- 许可证:MIT
- 任务类别:文本生成
- 语言:英语
- 标签:预测、预报、高尔夫、体育、未来即标签
- 数据规模:1K<n<10K
数据集描述
该数据集包含4,033个关于职业高尔夫的二元预测问题,覆盖PGA巡回赛、LIV高尔夫、LPGA、DP世界巡回赛、大满贯赛事、莱德杯等。数据采用“未来即标签”方法生成,源自2024年6月至2026年1月期间发布的新闻文章,二元结果通过网页搜索验证进行标注。
关键统计
| 训练集 | 测试集 | |
|---|---|---|
| 样本数 | 3,178 | 855 |
| 答案为“是”的比例 | 33.8% | 39.6% |
主题分布
| 搜索查询 | 数量 |
|---|---|
| European Tour golf | 559 |
| LIV Golf | 554 |
| LPGA | 495 |
| Professional golf | 491 |
| Golf world rankings | 449 |
| Golf major championship | 433 |
| PGA Tour | 409 |
| Womens golf | 400 |
| Ryder Cup / Presidents Cup | 243 |
数据模式
| 列名 | 描述 |
|---|---|
sample_id |
唯一标识符 |
prompt |
包含问题、新闻背景和回答指令的完整提示 |
question_text |
预测问题文本 |
correct_answer |
二元结果:1.0(是)或 0.0(否) |
prediction_date |
预测生成日期 |
resolution_date |
问题解决日期 |
date_close |
预测截止日期 |
search_query |
用于查找种子文章的搜索查询 |
url |
源文章URL |
示例问题
- Will Scottie Scheffler remain world #1 through June 2025?
- Will Cameron Young be officially named as a member of the 12-man U.S. Team for the 2025 Ryder Cup?
- Will Nelly Korda win an official individual LPGA Tour event between August 4, 2025, and December 31, 2025?
- Will Jon Rahm finish in the top 5 at the 2026 LIV Golf Riyadh tournament?
- Will Donald Trump be physically present at Bethpage Black during the 2025 Ryder Cup?
- Will any LIV player win a major championship in 2025?
- Will Laurie Canter finish in the top 20 of the final 2024 DP World Tour Race to Dubai rankings?
- Will the winning score of the 2025 Standard Portland Classic be -20 or lower?
搜集汇总
数据集介绍

构建方式
在体育预测领域,GolfForecasting数据集通过创新的“未来即标签”方法构建,该方法从2024年6月至2026年1月间的新闻文章中提取信息,生成关于职业高尔夫的二元预测问题。数据生成过程涉及新闻种子采集、前瞻性问题生成以及基于网络搜索的答案验证,确保了每个问题都具备明确的真实结果标签。整个流程自动化执行,覆盖了PGA巡回赛、LIV高尔夫、LPGA等主要赛事,最终形成了包含4033个样本的结构化集合。
使用方法
研究者可利用该数据集开发与评估文本生成模型在体育预测任务上的性能,特别是针对二元分类问题的推理能力。典型工作流程包括加载数据集、预处理提示文本,并基于问题与新闻上下文训练模型预测“是”或“否”的结果。数据集的划分支持标准的训练-测试评估,同时其提供的Python SDK允许用户自定义参数生成类似数据,便于扩展研究范围至其他体育领域或时间区间。
背景与挑战
背景概述
GolfForecasting数据集由LightningRod平台于2024年至2026年间构建,专注于职业高尔夫领域的二元预测问题。该数据集基于未来即标签(Future-as-Label)方法,从涵盖PGA巡回赛、LIV高尔夫、LPGA等主要赛事的新闻文章中生成4033个预测问题,旨在推动体育预测与自然语言处理交叉领域的研究。其核心研究问题在于探索如何利用时序新闻数据构建可验证的预测任务,为预测模型在动态、不确定性高的体育场景中的性能评估提供基准,对增强人工智能在复杂现实世界事件中的推理能力具有显著影响力。
当前挑战
该数据集致力于解决体育事件预测领域的核心挑战,即如何从非结构化新闻文本中提取具有明确时间边界和二元结果的预测问题,以克服体育结果固有的高不确定性和数据稀疏性。在构建过程中,面临的主要挑战包括确保预测问题的具体性与可验证性,避免模糊或主观表述;同时,通过网络搜索验证二元标签的准确性,需处理新闻信息的时效性差异与潜在噪声,保证数据标签的可靠性与一致性。
常用场景
经典使用场景
在体育预测分析领域,GolfForecasting数据集为研究未来事件预测模型提供了结构化基准。该数据集通过未来即标签方法,将高尔夫赛事相关的新闻文本转化为二元预测问题,典型应用场景包括训练和评估大型语言模型在时序推理与不确定性量化方面的能力。研究者可利用其丰富的上下文信息,探究模型如何整合历史新闻与领域知识,对职业高尔夫赛事结果进行概率性判断,从而推动预测科学在体育分析中的前沿进展。
解决学术问题
该数据集有效解决了体育分析中事件预测的标准化评估难题。传统预测研究常受限于标注成本高与时间跨度不足,而本数据集通过自动化流程生成大规模、时间锚定的二元问题,并经过网络搜索验证,为研究社区提供了可靠基准。其意义在于促进了预测模型在时序推理、外部知识整合以及概率校准方面的系统性比较,为理解模型在复杂现实场景中的泛化能力与局限性提供了实证基础。
实际应用
在实际应用层面,GolfForecasting数据集能够支撑体育博彩行业的风险评估与决策辅助系统开发。通过训练模型预测球员排名、赛事结果或里程碑事件,可为投注平台提供数据驱动的概率参考。同时,体育媒体与内容平台也可利用此类预测模型生成前瞻性分析报告,增强观众互动与内容深度。这些应用不仅提升了行业运营效率,也推动了数据智能在高价值体育商业场景中的落地。
数据集最近研究
最新研究方向
在高尔夫运动预测领域,GolfForecasting数据集凭借其基于Future-as-Label技术构建的二元预测问题,正推动着时序预测与自然语言处理的交叉研究。该数据集聚焦于PGA巡回赛、LIV高尔夫、LPGA等顶级赛事的前瞻性问题,为探索大语言模型在体育结果预测中的泛化能力提供了基准。当前研究热点集中于利用新闻上下文增强模型对复杂赛事动态的理解,以提升预测准确性,同时数据集的生成框架也为其他运动领域的可验证预测任务设立了范式,促进了自动化预测系统在体育分析中的实际应用。
以上内容由遇见数据集搜集并总结生成



