obso-trained-grids

Hugging Face2026-03-30 更新2026-03-31 收录

下载链接：

https://huggingface.co/datasets/luxury-lakehouse/obso-trained-grids

下载链接

链接失效反馈

官方服务：

资源简介：

OBSO训练网格（EPV + 球可达性）数据集是一个基于SPADL动作数据的足球分析数据集，旨在为Off-Ball Scoring Opportunity（OBSO）流程提供数据驱动的预期控球价值（EPV）和球可达性网格。该数据集通过马尔可夫链价值迭代和传球完成边际化计算，取代了传统的高斯代理模型。数据集包含全局可达性网格（100 x 64）、全局EPV网格（50 x 32）和全局完成矩阵（400个区域），所有数据均以Parquet格式存储。此外，还提供了按竞赛分类的网格和矩阵。数据集适用于足球分析、战术评估和球员表现预测等任务。数据集规模为10K到100K之间，包含2,221,025个SPADL动作，覆盖8个竞赛。

创建时间：

2026-03-17

原始信息汇总

OBSO Trained Grids (EPV + Ball Reachability) 数据集概述

数据集基本信息

许可证: MIT
标签: 足球、英式足球、OBSO、EPV、转换、可达性、分析
数据规模: 10K < n < 100K

数据集简介

本数据集为“无球得分机会”（OBSO）流程提供了数据驱动的“预期控球价值”（EPV）网格和足球可达性网格。这些网格基于SPADL动作数据，通过马尔可夫链价值迭代和传球完成边际化计算得出，用于替代原有的合成高斯代理表面。

计算方法

EPV 网格 (50 x 32)

采用马尔可夫链价值迭代方法（Karun Singh 2018 / Spearman 2018）。收敛条件：容差=1e-06，最大迭代次数=100。

足球可达性网格 (100 x 64)

在中间分辨率（25 x 16 = 400个区域）上构建区域到区域的传球完成矩阵。
根据传球频率对起始区域进行加权边际化，得到全局可达性表面。
通过双线性插值上采样至 (100, 64) 分辨率。

完成矩阵 (400个区域)

存储成功传球产生的区域到区域转移概率（行归一化）。以稀疏长格式存储，用于未来基于特定起点的OBSO查询。

数据内容

文件	描述
`data/reachability_grid_global.parquet`	全局可达性网格（长格式）
`data/epv_grid_global.parquet`	全局EPV网格（长格式）
`data/completion_matrix_global.parquet`	全局完成矩阵（稀疏长格式）
`data/reachability_grids_all.parquet`	所有网格（按赛事 + 全局）
`data/epv_grids_all.parquet`	所有EPV网格（按赛事 + 全局）
`data/completion_matrices_all.parquet`	所有完成矩阵
`metadata.json`	参数、统计信息和数据来源

数据列说明

reachability_grid_global.parquet

列名	类型	描述
`zone_y`	int	Y区域索引 (0-99，球场宽度)
`zone_x`	int	X区域索引 (0-63，进攻方向)
`reachability`	float	足球可达性概率 (0-1，值越高越容易到达)

epv_grid_global.parquet

列名	类型	描述
`zone_y`	int	Y区域索引 (0-49，球场宽度)
`zone_x`	int	X区域索引 (0-31，进攻方向)
`epv_value`	float	预期控球价值 (0-1，值越高越危险)

completion_matrix_global.parquet

列名	类型	描述
`origin_zone`	int	传球起点的扁平化区域索引
`target_zone`	int	传球目标的扁平化区域索引
`probability`	float	行归一化的完成概率

网格统计信息

可达性网格: 100 x 64，数值范围 [0.0658, 0.9924]
EPV网格: 50 x 32，数值范围 [0.00278, 0.57981]
赛事数量: 8
SPADL动作总数: 2,221,025

数据来源与许可

方法参考文献: Karun Singh (2018), Spearman (2018), Fernandez & Bornn (2018), Lee, Jo, Hong, Bauer & Ko (2026)。
数据来源: 基于StatsBomb和Wyscout的开放数据，通过SPADL转换而来。
许可证: MIT。

搜集汇总

数据集介绍

构建方式

在足球分析领域，数据驱动的模型正逐步取代传统经验假设。OBSO Trained Grids数据集通过马尔可夫链价值迭代算法构建了50×32的期望控球价值（EPV）网格，该过程基于SPADL动作数据，以1e-06的容差和最多100次迭代确保收敛，精准量化了球场各区域的进攻威胁。同时，利用区域间传球完成矩阵，通过边缘化处理和双线性插值技术，生成了100×64的全局球可达性网格，有效反映了球员在不同位置接球的概率。

特点

该数据集的核心特征在于其完全基于真实比赛数据驱动，摒弃了传统高斯代理模型的合成假设，提供了更为精确的球场价值表面。EPV网格以0.00278至0.57981的数值范围刻画进攻威胁，而可达性网格则覆盖0.0658至0.9924的概率区间，两者均以高分辨率网格形式呈现。数据集还包含了稀疏长格式存储的全局完成矩阵，支持未来针对特定传球起点的离线评分机会分析，并涵盖八个不同赛事的超过222万次SPADL动作，确保了数据的广泛代表性。

使用方法

研究人员可通过Hugging Face Hub便捷下载Parquet格式的全局网格文件，利用pandas库进行加载与数据重塑。例如，将长格式数据转换为100×64的可达性二维数组或50×32的EPV二维数组，即可直接集成至现有的足球分析管道中。这些网格能够作为基础层，用于评估球员的跑位价值、量化传球选择的质量，或为更复杂的战术模型提供输入，从而深化对比赛动态的理解。

背景与挑战

背景概述

在足球分析领域，量化无球跑动价值一直是提升战术理解的关键。OBSO Trained Grids数据集应运而生，它由研究人员基于公开的足球事件数据构建，旨在通过数据驱动的方法精确评估球场空间的价值。该数据集的核心在于计算预期控球价值网格与足球可达性网格，取代了传统的高斯代理模型，为无球得分机会分析提供了更为科学的依据。其构建借鉴了Karun Singh与Spearman等人于2018年提出的马尔可夫链价值迭代理论，标志着足球分析从描述性统计向预测性模型的深刻演进。

当前挑战

该数据集致力于解决足球战术分析中无球状态下空间价值评估的挑战，即如何精确量化球员在不同球场位置对进攻威胁的贡献。构建过程中的挑战包括：从海量SPADL动作数据中可靠地估计状态转移概率，确保马尔可夫链价值迭代算法的收敛稳定性；以及通过区域间传球完成矩阵的边际化与上采样，生成高分辨率、全局一致的足球可达性表面，同时需处理数据稀疏性与计算复杂度之间的平衡。

常用场景

经典使用场景

在足球运动科学领域，OBSO Trained Grids数据集为无球得分机会分析提供了核心支撑。该数据集通过数据驱动的预期控球价值网格和球可达性网格，取代了传统的高斯代理模型，使得研究人员能够基于真实比赛动作数据，量化评估球场每个区域的进攻威胁和传球可达概率。经典使用场景包括构建无球跑位策略模型，教练和分析师利用这些网格识别高价值进攻区域，优化球员的场上位置选择，从而提升球队的整体进攻效率。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在扩展其方法论与应用边界。例如，研究者在EPV框架基础上引入了球员特定能力参数，发展出个性化预期威胁模型。另有工作将网格数据与计算机视觉结合，实现了从视频流中实时估计控球价值。此外，基于该数据集完成的传球网络分析与团队协同度量研究，为量化团队化学与战术适应性提供了新工具，持续推动着足球分析学科向更精细、更动态的方向演进。

数据集最近研究