statsbomb-shots-on-target
收藏Hugging Face2026-04-02 更新2026-04-03 收录
下载链接:
https://huggingface.co/datasets/luxury-lakehouse/statsbomb-shots-on-target
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含来自StatsBomb开放数据的约15,000次射正球的射门数据,并提供了球门坐标(`end_location_y`, `end_location_z`)。这些数据主要用于训练PSxG(射门后预期进球)模型,用于评估守门员的扑救表现。数据集仅包含射门结果为“Saved”、“Goal”或“Post”的射门,排除了被挡出或偏离球门的射门。数据字段包括事件ID、比赛ID、球员ID、球门坐标(水平和垂直位置)、射门结果以及是否为进球的目标变量。球门坐标使用StatsBomb 360坐标系,并标准化为[0,1]范围。数据来源为StatsBomb开放数据,覆盖英超、西甲、意甲、德甲、法甲、欧冠、世界杯等赛事(仅限支持360数据的比赛)。数据集适用于PSxG模型训练、守门员表现分析、射门热图可视化等场景。但需注意,数据集仅限于StatsBomb开放数据,且不包含守门员的起始位置或移动信息。
创建时间:
2026-04-01
原始信息汇总
StatsBomb On-Target Shots — Goalmouth Coordinates 数据集概述
数据集简介
该数据集包含来自StatsBomb开放数据集的约1.5万次射正数据,并提供了球门坐标(end_location_y, end_location_z)。它是用于守门员扑救评估的PSxG模型的主要训练输入数据。
数据集详情
- 语言:英语
- 许可证:CC-BY 4.0
- 任务类别:表格分类
- 标签:体育分析、足球、守门员、期望进球、PSxG、射门、StatsBomb
- 数据规模:10K-100K
- 数据格式:Parquet文件
数据内容
数据集包含StatsBomb开放数据收集中所有包含球门坐标的射正数据。仅包含shot_outcome为Saved、Goal或Post的射门,不包括被阻挡或射偏的射门。
数据字段
| 字段名 | 类型 | 描述 |
|---|---|---|
event_id |
string |
唯一的StatsBomb事件标识符 |
match_id |
Int64 |
比赛标识符 |
player_id |
Int64 |
射门球员标识符 |
end_location_y |
float64 |
归一化的球门水平位置[0, 1](0=左门柱,1=右门柱) |
end_location_z |
float64 |
归一化的球门垂直位置[0, 1](0=地面,1=横梁) |
shot_outcome |
string |
结果:Saved、Goal或Post |
is_goal |
bool |
目标变量——如果shot_outcome = Goal则为true |
坐标系说明
球门坐标使用StatsBomb 360坐标系,并归一化到[0, 1]范围:
end_location_y:原始StatsBomb y坐标为36-44码(门柱到门柱,8码宽)。归一化公式:(y - 36) / 8。end_location_z:原始StatsBomb z坐标为0-2.44米(地面到横梁)。归一化公式:z / 2.44。
超出[0, 1]范围的值(因高度或宽度而射偏但仍被归类为“Saved”的射门)会被裁剪到0和1。
数据来源
| 来源 | 射正数据量 | 许可证 |
|---|---|---|
| StatsBomb Open Data | 约1.5万 | CC-BY 4.0 |
数据覆盖范围包括英超、西甲、意甲、德甲、法甲、欧冠、世界杯等(仅限具有StatsBomb 360数据的赛事,因为end_location_z需要360数据)。
主要用途
- PSxG模型训练:PSxG模型的主要训练输入
- 守门员基准测试:分析单个守门员面对的射门难度分布
- 射门分析:按结果、赛事或位置可视化球门热图
- 自定义模型:在同一标准化数据集上训练替代的PSxG架构
局限性
- 仅限StatsBomb数据:
end_location_z在Wyscout或其他开放数据提供商中不可用。 - 仅限支持360的赛事:只有具有360数据的StatsBomb赛事才有球门z坐标。
- 仅限开放数据:仅包含公开可用的StatsBomb射门数据。
- 无守门员位置信息:不包含守门员的起始位置或移动信息。
- 坐标裁剪:一小部分“Saved”射门的原始坐标在球门几何形状之外,这些坐标被裁剪到[0, 1]范围。
引用要求
使用该数据集时,请引用提供的三篇参考文献。
相关资源
| 资源 | 描述 |
|---|---|
| PSxG Model | 基于此数据集训练的逻辑回归PSxG模型 |
| PSxG Predictions | 包含球员和比赛标识符的每射门PSxG预测 |
| xG Shot Data | 包含射门前特征的完整射门数据集 |
| xG Freeze Frame Data | 射门时刻的球员位置数据 |
搜集汇总
数据集介绍

构建方式
在足球运动科学分析领域,数据集的构建质量直接影响模型的可靠性。StatsBomb On-Target Shots数据集源自StatsBomb开放数据平台,经过精心筛选与标准化处理。构建过程首先从包含360度坐标数据的赛事中提取所有射门事件,仅保留射门结果为‘Saved’、‘Goal’或‘Post’的有效射正数据,排除被阻挡或偏离目标的射门。关键步骤涉及坐标系统转换,将原始球场坐标归一化至[0,1]区间,其中水平坐标end_location_y映射球门宽度,垂直坐标end_location_z对应球门高度,并对超出几何范围的坐标进行截断处理,最终形成约1.5万条标准化射正记录。
特点
该数据集的核心特征体现在其专业化的足球运动数据表征体系。采用StatsBomb 360坐标系统提供的三维球门坐标,实现了射门落点的精确量化描述。数据字段设计简洁而完整,包含事件标识、球员信息、归一化球门坐标及射门结果等关键维度。特别值得注意的是is_goal字段作为目标变量,为监督学习任务提供清晰标注。数据集覆盖欧洲五大联赛及世界杯等顶级赛事,确保数据样本的多样性与代表性。坐标归一化处理使得不同赛事数据具有可比性,为跨联赛分析奠定基础。
使用方法
在足球数据分析实践中,该数据集为多种研究场景提供标准化输入。通过Hugging Face数据集库可直接加载数据,转换为pandas数据框后进行探索性分析。典型应用包括计算不同球门区域的进球概率分布,构建射门热力图可视化。作为PSxG模型的核心训练数据,可用于评估守门员扑救表现,量化射门难度。研究人员亦可基于此数据集开发替代性预期进球模型,如核密度估计或神经网络架构。配套的交互式演示空间支持动态数据探索,而相关预测数据集和冻结帧数据则为多维度分析提供扩展支持。
背景与挑战
背景概述
在足球运动分析领域,量化评估守门员扑救表现长期面临数据匮乏的挑战。StatsBomb On-Target Shots数据集由Luxury Lakehouse足球分析平台于近期构建,其核心研究问题聚焦于通过射门落点坐标精准建模射正后的预期进球概率,即PSxG模型。该数据集源自StatsBomb开放数据中约1.5万次射正事件,通过标准化球门坐标,为守门员表现评估提供了前所未有的细粒度数据基础,显著推动了足球科学从描述性统计向因果推断的范式转变。
当前挑战
该数据集旨在解决足球分析中守门员表现评估的量化难题,其核心挑战在于如何从有限的射正事件中准确建模射门落点与进球概率的非线性关系,并分离守门员个人能力与射门固有难度的贡献。在构建过程中,挑战主要源于数据源的固有局限:仅StatsBomb 360系统提供垂直坐标数据,导致数据集覆盖的赛事范围受限;部分被扑救射门的原始坐标超出球门几何范围,需进行截断处理,可能引入测量误差;此外,数据集中未包含守门员初始位置与移动轨迹,限制了情境化分析的深度。
常用场景
经典使用场景
在足球运动科学分析领域,StatsBomb射正数据集为门将表现评估提供了关键数据支撑。该数据集最经典的应用场景是训练射门后预期进球模型,通过标准化球门坐标数据,量化射正球门的射门转化为进球的概率。研究人员利用约1.5万次射正事件,构建能够准确反映射门难度与门将扑救能力的统计模型,为传统的主观评价体系注入了客观数据维度。
实际应用
在职业足球领域,该数据集的实际应用价值体现在多个层面。俱乐部技术部门利用其进行门将招募评估,通过对比候选门将面对相似难度射门时的实际扑救率与预期扑救率,识别被市场低估的守门人才。教练组则运用球门区域热力图分析,针对性设计训练方案以改善门将的薄弱扑救区域。数据驱动的表现评估体系正在重塑现代足球的人才选拔与训练科学体系。
衍生相关工作
基于该数据集衍生的经典研究推动了足球分析学的发展。Butcher等人构建的xGOT模型开创了射门后预期进球的量化框架,为门将评估奠定了理论基础。Nielsen开发的PSxG模型则通过逻辑回归方法实现了扑救难度的精确计算。这些工作共同形成了完整的守门员表现评估生态系统,催生了包括冻结帧分析、情境感知模型在内的系列创新研究,持续推动着足球数据分析方法论的演进。
以上内容由遇见数据集搜集并总结生成



