luxury-lakehouse/football2vec-training-data
收藏Hugging Face2026-04-29 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/luxury-lakehouse/football2vec-training-data
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为Football2Vec训练数据——SPADL动作序列,包含用于训练Football2Vec v2变压器编码器的标记化SPADL动作序列。每一行代表一名球员在一场比赛中的动作序列,涵盖了来自StatsBomb开放数据和Wyscout的约3,000场职业足球比赛的约87,000个序列。数据集包括统一球员标识符、比赛标识符、比赛和赛季标识符、球员位置组以及有序的标记化SPADL动作序列。动作序列中的每个元素包含动作类型ID、归一化的空间坐标和二进制结果。数据集是(Right! Luxury!) Lakehouse足球分析平台的一部分,适用于变压器训练、自定义嵌入模型、序列分析和词汇研究等用途。
The dataset, titled Football2Vec Training Data — SPADL Action Sequences, contains tokenized SPADL action sequences for training the Football2Vec v2 transformer encoder. Each row represents one players actions in one match, with ~87,000 sequences across ~3,000 professional soccer matches sourced from StatsBomb Open Data and Wyscout. The dataset includes fields such as canonical player ID, match ID, competition and season IDs, player position group, and an ordered sequence of tokenized SPADL actions. Each action in the sequence contains an action type ID, normalized spatial coordinates, and a binary outcome. This dataset is part of the (Right! Luxury!) Lakehouse soccer analytics platform and is intended for use in transformer training, custom embedding models, sequence analysis, and vocabulary research, among other applications.
提供机构:
luxury-lakehouse
搜集汇总
数据集介绍

构建方式
在足球分析领域,数据集的构建往往依赖于对原始事件数据的标准化处理。本数据集源自StatsBomb和Wyscout两大公开数据源,涵盖了约三千场职业足球比赛。其核心构建流程采用了SPADL(Soccer Player Action Description Language)框架,将球员的场上行为统一编码为23种标准动作类型。每个球员在单场比赛中的持球动作序列被提取并结构化,空间坐标被归一化至标准球场尺寸,最终形成约八万七千条以球员-比赛为单位的序列数据。这一过程通过平台内部的Delta表导出脚本实现,确保了数据的可复现性。
特点
该数据集的核心特征在于其高度结构化的序列表示。每条记录对应一名球员在单场比赛中的所有持球动作,动作序列以数组形式存储,每个动作包含类型、归一化坐标及成功与否的标签。这种设计使得数据能够直接服务于基于Transformer的嵌入模型训练。数据集覆盖了多个顶级联赛与国际赛事,并进行了跨数据源的实体解析,提供了统一的球员标识。然而,其范围限定于有球事件,未包含无球跑动等行为,且坐标系统已转换为SPADL标准,原始数据源的坐标信息未被保留。
使用方法
该数据集主要作为训练语料,用于训练Football2Vec v2等球员嵌入模型。使用者可通过Hugging Face的`datasets`库直接加载,数据以Parquet格式存储,可便捷转换为Pandas DataFrame进行分析。典型应用包括利用动作序列进行掩码语言建模训练,以学习表征球员风格的向量嵌入。此外,研究人员也可基于这些标准化序列,开展球员行为模式分析、跨联赛比较或自定义嵌入模型的训练。数据集中包含的竞赛标识符还可用于对抗性训练,以消除赛事特征带来的偏差。
背景与挑战
背景概述
足球运动分析领域长期致力于量化球员表现,传统指标难以捕捉球员动作序列的复杂模式。Football2Vec训练数据集应运而生,由Luxury Lakehouse平台于2026年前后构建,旨在为Football2Vec v2 Transformer编码器提供标准化的训练语料。该数据集基于SPADL(Soccer Player Action Description Language)框架,整合了StatsBomb和Wyscout两大公开数据源,涵盖超过87,000条球员-比赛动作序列。其核心研究问题在于通过序列建模学习球员的向量化表示,从而推动球员风格分析、战术模式识别等高级分析任务,为足球分析社区提供了可复现的基准数据。
当前挑战
该数据集旨在解决足球分析中球员动作序列建模的挑战,其核心问题在于如何从离散的、高维的赛场事件中提取有意义的语义表示。具体挑战包括:动作类型的标准化与跨数据源对齐、时空坐标的归一化处理,以及序列中成功与失败结果的平衡标注。在构建过程中,面临多源异构数据的实体解析难题,需统一不同数据提供商的球员标识与坐标系统;同时,公开数据的覆盖范围存在不均衡性,某些联赛与赛季的样本量有限;此外,数据局限于有球动作序列,无法涵盖无球跑动与防守站位等关键战术信息,这限制了模型对球员全面表现的理解能力。
常用场景
经典使用场景
在足球运动分析领域,该数据集作为Football2Vec v2模型的训练语料,其经典使用场景集中于通过掩码语言建模与对抗性去偏技术,从标准化的SPADL动作序列中学习球员的向量表示。这些序列捕捉了球员在单场比赛中的传球、射门、拦截等23类关键行为及其空间坐标,为深度理解球员的技术风格与决策模式提供了结构化基础。研究者可基于此训练自定义的嵌入模型,探索球员行为的潜在表征,推动数据驱动的战术洞察。
实际应用
在实际应用层面,该数据集支撑了职业足球俱乐部的球探与表现分析工作。通过生成的球员嵌入向量,分析师可以识别与目标球员风格相似的后备人才,评估球员在不同战术体系中的适应性,并监测其状态随时间的变化。此外,体育媒体与数据平台可利用这些嵌入增强比赛解说与内容生成,为球迷提供更深度的球员对比与战术解读。这些应用有助于提升球队决策的科学性与球迷体验的丰富性。
衍生相关工作
围绕该数据集衍生的经典工作主要包括Football2Vec系列模型,其v2版本采用Transformer架构与对抗性训练,显著提升了嵌入的判别能力。同时,基于SPADL框架的VAEP(Valuing Actions by Estimating Probabilities)价值评估模型也利用类似的动作序列数据量化球员行为的进攻与防守贡献。这些工作共同推动了足球分析从描述性统计向预测性与解释性建模的演进,并催生了开源工具与标准化数据管道的生态发展。
以上内容由遇见数据集搜集并总结生成



