football2vec-training-data
收藏Hugging Face2026-04-02 更新2026-04-03 收录
下载链接:
https://huggingface.co/datasets/luxury-lakehouse/football2vec-training-data
下载链接
链接失效反馈官方服务:
资源简介:
Football2Vec训练数据集包含SPADL动作序列,用于训练Football2Vec v2 transformer编码器。数据集包含约87,000个球员-比赛序列,覆盖约3,000场来自StatsBomb Open Data和Wyscout的职业足球比赛。每条记录代表一名球员在一场比赛中的动作序列,序列以SPADL标记化的事件数组形式存储。数据集包含统一球员标识符、比赛标识符、比赛和赛季信息、球员位置组以及动作序列。动作序列中的每个事件包含动作类型、归一化坐标和结果。数据集适用于transformer训练、自定义嵌入模型、序列分析和动作词汇研究。数据来源于StatsBomb Open Data和Wyscout Public Dataset,覆盖多个顶级联赛和赛事。数据集的主要限制包括仅包含有球动作序列、公开数据覆盖不均、坐标归一化以及部分球员位置信息缺失。
创建时间:
2026-03-31
原始信息汇总
Football2Vec Training Data — SPADL Action Sequences 数据集概述
数据集基本信息
- 名称:Football2Vec Training Data — SPADL Action Sequences
- 创建者/维护者:(Right! Luxury!) Lakehouse soccer analytics platform
- 许可证:CC-BY-NC 4.0
- 语言:英语
- 任务类别:特征提取
- 标签:体育分析、足球、球员嵌入、Transformer、SPADL、训练数据
- 数据规模:10K-100K
- 配置:默认配置(
default),数据文件位于data/*.parquet,仅包含训练集(trainsplit)
数据集内容与结构
- 核心内容:包含约87,000条球员-比赛序列,覆盖约3,000场来自StatsBomb Open Data和Wyscout的职业足球比赛。
- 数据表示:每一行代表一名球员在一场比赛中的行为序列,序列以SPADL(一种足球行为分类法)标记化的事件结构数组形式存储。
- 数据标准化:连续的空间坐标(x, y)被归一化到[0, 1]区间,对应105米×68米的标准球场。
- SPADL词汇表:包含23种标准化的足球动作类型(如传球、射门、抢断等),为来自不同数据源(StatsBomb和Wyscout)的数据提供了统一的行为分类体系。
数据字段说明
主表字段
| 字段名 | 类型 | 描述 |
|---|---|---|
canonical_player_id |
字符串 | 统一的球员标识符(通过跨数据源的实体解析获得) |
match_id |
字符串 | 比赛标识符 |
competition_id |
整数 | 赛事标识符(在第二阶段训练中用作对抗性目标) |
season_id |
整数 | 赛季标识符 |
position_group |
字符串(可为空) | 球员位置分组:GK(守门员)、Def(后卫)、Mid(中场)、Fwd(前锋),来自 dim_players 表 |
actions |
结构体数组 | 按顺序排列的、标记化的SPADL动作序列 |
动作结构体(actions数组中的元素)模式
| 字段名 | 类型 | 描述 |
|---|---|---|
action_type |
整数 | SPADL动作类型ID(0–22,共23种动作类型) |
x |
浮点数 | 在105米球场上的归一化x坐标 [0, 1] |
y |
浮点数 | 在68米球场上的归一化y坐标 [0, 1] |
result |
整数 | 二进制结果:1 = 成功,0 = 失败 |
数据来源与覆盖范围
- 主要来源:
- StatsBomb Open Data:约3,000场比赛,许可证为CC-BY 4.0。
- Wyscout Public Dataset:约1,900场比赛,许可证为CC-BY-NC 4.0。
- 覆盖赛事:包括英超、西甲、意甲、德甲、法甲、欧冠、世界杯等。
数据更新与维护
- 新鲜度SLA:168小时(7天)。
- 刷新触发条件:当上游的
fct_action_values表更新了新比赛数据时,会重新导出数据集。 - 发布脚本:
src/ingestion/export_embeddings_training_data.py(入口点:export_embeddings_training_data)。
主要用途
- Transformer模型训练:作为Football2Vec v2模型(掩码语言建模+对抗性去偏)的主要训练语料库。
- 自定义嵌入模型:基于标准化的SPADL序列训练用户自己的球员嵌入模型。
- 序列分析:研究每名球员的行为模式、空间倾向和决策序列。
- 词汇研究:比较不同赛事、位置或时代的行为分布。
已知局限性
- 仅包含有球事件:只包含持球动作序列,不包含无球跑动、压迫和站位。
- 仅限公开数据:源自公开的StatsBomb和Wyscout数据,各联赛和赛季的覆盖范围不均。
- 坐标归一化:所有坐标都归一化到105×68米球场的[0, 1]区间(SPADL标准),未保留原始数据提供者特定的坐标系。
- 空值位置分组:未通过实体解析匹配或缺少位置元数据的球员,其
position_group字段为NULL。
引用要求
使用此数据集时,请引用SPADL框架和Football2Vec v2模型:
- SPADL框架:引用
decroos2019actions。 - Football2Vec v2模型:引用
nielsen2026football2vec_v2。
相关资源
- Football2Vec v2模型:https://huggingface.co/luxury-lakehouse/football2vec-v2
- Football2Vec v1模型:https://huggingface.co/luxury-lakehouse/football2vec-statsbomb-wyscout
- 球员嵌入向量:https://huggingface.co/datasets/luxury-lakehouse/football2vec-player-embeddings
- SPADL/VAEP动作价值:https://huggingface.co/datasets/luxury-lakehouse/spadl-vaep-action-values
- 交互式演示空间:https://huggingface.co/spaces/luxury-lakehouse/soccer-analytics-demo
搜集汇总
数据集介绍

构建方式
在足球分析领域,构建高质量的训练数据是模型性能的基石。本数据集源自StatsBomb Open Data和Wyscout公开数据集,涵盖了约3000场职业足球比赛。通过统一的SPADL(Soccer Player Action Description Language)框架,将原始事件数据转化为标准化的动作序列。具体而言,每行数据代表一名球员在单场比赛中的所有持球行为,这些行为被序列化为结构数组,包含了23类标准动作类型、归一化至[0,1]区间的球场坐标以及动作成功与否的二元结果。数据从平台的`fct_action_values` Delta表中导出,确保了处理流程的可复现性。
使用方法
该数据集主要作为训练语料,用于训练Football2Vec v2等Transformer编码器模型,以学习球员的行为表征。研究人员可使用Hugging Face的`datasets`库直接加载数据,并转换为Pandas DataFrame进行探索。每条数据中的`actions`数组包含了按时间顺序排列的动作结构体,便于进行序列建模分析。典型应用场景包括:训练自定义的球员嵌入模型,研究不同位置、联赛或时代背景下球员的动作模式与决策序列,以及作为对比分析不同动作分布的基础语料。数据集附带的交互式演示空间,为用户提供了直观的数据探索途径。
背景与挑战
背景概述
足球运动分析领域长期以来致力于量化球员表现与战术价值,传统指标往往局限于进球与助攻等显性事件,难以捕捉球员在比赛过程中的细微贡献。为应对这一局限,SPADL(Soccer Player Action Description Language)框架应运而生,旨在通过标准化的动作分类体系来结构化描述赛场事件。在此背景下,由Luxury Lakehouse平台的研究人员于2026年前后构建的football2vec-training-data数据集,作为训练Football2Vec v2 Transformer编码器的核心语料,整合了来自StatsBomb Open Data与Wyscout Public Dataset的约3000场职业比赛数据,涵盖了约87000条球员-比赛序列。该数据集通过统一的23类SPADL动作词汇与归一化空间坐标,为生成能够表征球员技术风格与决策模式的嵌入向量奠定了基础,显著推动了数据驱动的球员评估与战术分析研究。
当前挑战
该数据集旨在解决的领域核心挑战在于如何从离散的、高维的球员动作序列中学习出具有语义意义的低维向量表示,以克服传统足球分析中手工特征工程的局限,并实现跨球员、跨比赛的稳健性能比较。在构建过程中,数据集面临多重具体挑战:其一,多源异构数据的整合与实体解析,需将来自StatsBomb和Wyscout的不同数据模式与坐标系系统一至SPADL标准框架下,并确保球员身份在不同来源间的一致性;其二,信息表示的固有局限,数据集仅包含有球动作序列,无法捕捉无球跑动、压迫防守等关键战术行为,且公开数据的覆盖范围在联赛与赛季间存在不均衡性;其三,数据质量与完整性的维护,部分球员因实体解析失败或元数据缺失而导致位置信息为空,且坐标归一化过程丢失了原始数据提供商特有的场地坐标系细节。
常用场景
经典使用场景
在足球运动分析领域,该数据集作为训练语料,主要用于训练Transformer编码器模型,如Football2Vec v2,以生成球员的向量嵌入。通过标准化SPADL动作序列,它支持对球员在比赛中的行为模式进行建模,涵盖传球、射门、拦截等23类动作,并结合归一化的空间坐标与结果标签,为深度表征学习提供了结构化基础。
解决学术问题
该数据集解决了足球分析中球员行为量化与比较的学术难题。传统指标往往局限于统计摘要,而本数据集通过序列化的事件数据,使得研究者能够运用自然语言处理技术,如掩码语言建模,来捕捉球员决策的上下文依赖与时空特征。这促进了球员风格分类、动作价值评估等研究,并推动了跨数据源的动作语义统一。
实际应用
在实际应用中,该数据集支撑了职业足球俱乐部的战术分析与球员招募。基于训练得到的嵌入向量,分析师可以量化球员的技术特点,识别相似风格的球员,或评估球员在不同比赛情境下的表现一致性。此外,它还可用于开发交互式分析工具,帮助教练团队可视化球员行为序列,优化战术部署。
数据集最近研究
最新研究方向
在足球数据分析领域,基于Transformer架构的球员嵌入技术正成为研究前沿。Football2Vec训练数据集通过标准化的SPADL动作序列,为球员行为建模提供了高质量语料。当前研究聚焦于利用掩码语言建模与对抗性去偏技术,从海量比赛事件中提取能够表征球员战术风格与决策模式的深度向量表示。这些嵌入向量不仅能够量化球员的技术特点,还能支撑跨联赛的球员能力比较与转会价值评估,推动了足球战术分析的智能化进程。随着多源异构比赛数据的融合,该数据集进一步促进了动作模式挖掘、位置适应性分析等方向的发展,为俱乐部人才选拔与战术设计提供了数据驱动的科学依据。
以上内容由遇见数据集搜集并总结生成



