fbref-xg-analysis-2024-2025
收藏Hugging Face2026-04-12 更新2026-04-13 收录
下载链接:
https://huggingface.co/datasets/roirani80/fbref-xg-analysis-2024-2025
下载链接
链接失效反馈官方服务:
资源简介:
FBRef Football Player Performance — xG Analysis 2024-2025 数据集是一个用于分析足球运动员是否超出或低于其预期进球(xG)的数据集。数据集来源于FBRef(Football Reference),覆盖了2024-2025赛季的英超、西甲、德甲、意甲和法甲联赛。原始数据集包含2,273名球员的数据,经过清洗后保留1,510名球员,共38个特征。关键特征包括球员姓名、国籍、位置、年龄、进球数、助攻数、xG、非点球xG(npxG)、预期助攻(xAG)等。此外,数据集还包含三个 engineered 特征:xG_Diff(进球数减去xG)、xG_Overperformer(二元目标变量,1表示进球数大于xG,0表示否)和npxG_Diff(非点球进球数减去npxG)。数据集适用于预测球员是否超出预期进球的研究任务,并可用于足球数据分析、球员表现评估和转会市场估值等应用场景。
创建时间:
2026-04-07
搜集汇总
数据集介绍

构建方式
在足球数据分析领域,FBRef-xG-analysis-2024-2025数据集源自FBRef平台提供的2024-2025赛季五大联赛球员表现数据。原始数据包含2,273名球员的统计信息,经过系统性的数据清洗流程,移除了无关索引列、修正了分钟数的格式、剔除了重复记录以及零贡献球员,最终得到1,510名球员的纯净样本。在此基础上,通过特征工程引入了xG_Diff、xG_Overperformer和npxG_Diff三个关键变量,旨在量化球员实际进球与预期进球之间的差异,从而构建了一个专注于临床终结能力分析的标准化数据集。
使用方法
该数据集适用于足球运动科学中的预测建模与探索性分析。研究者可通过Hugging Face的`load_dataset`接口便捷加载数据,并利用Pandas进行进一步处理。数据集的核心应用在于构建分类模型,例如随机森林,以预测球员是否为xG超额完成者。输入特征可选取‘Goals Per 90’、‘xG Per 90’、‘Progressive Carries’等关键统计指标,目标变量则为‘xG_Overperformer’。分析流程可遵循数据集中附带的Jupyter Notebook范例,涵盖描述性统计、相关性分析、可视化探索到最终模型训练与评估的全过程,为球员表现评估与人才识别提供数据驱动的见解。
背景与挑战
背景概述
在足球数据分析领域,预期进球(xG)模型已成为量化射门质量与球员终结能力的关键工具。FBRef-xG-Analysis-2024-2025数据集由研究员Roy Irani于2024-2025赛季构建,基于FBRef平台提供的欧洲五大联赛球员表现数据。该数据集的核心研究问题聚焦于能否通过球员的常规表现统计指标,预测其实际进球是否超越预期进球,从而识别出具备“临床终结”特质的球员。这一研究不仅深化了对球员进攻效率的理解,也为足球俱乐部的球员评估与转会策略提供了数据驱动的科学依据,推动了足球战术分析与人才挖掘的精细化发展。
当前挑战
该数据集旨在解决足球运动分析中球员终结效率评估的挑战,即如何超越传统的进球数统计,通过xG模型与多维表现特征,精准区分球员的终结能力是源于机会创造还是实际射术。在构建过程中,面临数据清洗的复杂性,包括处理球员跨赛季转会导致的重复记录、将字符串格式的出场时间转换为数值型数据,以及过滤无进攻贡献的球员样本。此外,特征工程需审慎设计,如构建xG差异与二分类目标变量,并需在异常值处理上保持平衡,避免因剔除精英球员的极端表现数据而扭曲对高绩效球员的分析。
常用场景
经典使用场景
在足球数据分析领域,FBRef-xG-analysis-2024-2025数据集为研究球员射门效率提供了关键支撑。该数据集最经典的使用场景在于通过机器学习模型预测球员是否能够超越其预期进球值(xG)。研究者通常利用数据集中的丰富特征,如每90分钟进球数、预期进球数以及渐进式传球等,构建随机森林等分类模型,以识别那些在射门转化上表现卓越的“临床终结者”。这一过程不仅验证了xG指标的有效性,还揭示了球员表现背后的统计规律,为足球战术分析和球员评估提供了量化依据。
解决学术问题
该数据集主要解决了足球运动科学中关于射门效率量化与预测的学术问题。传统上,球员表现评估多依赖主观观察或基础统计,而xG模型引入了基于射门位置、角度等多变量的概率估计。本数据集通过构建xG差异和二元分类目标,使研究者能够系统探究超越xG的球员特质,如年龄、位置与比赛时间的影响。其意义在于将足球分析从描述性统计推向预测性建模,促进了运动科学、数据挖掘与机器学习在体育领域的交叉融合,为球员能力评估提供了更客观、可复现的研究框架。
实际应用
在实际应用中,该数据集被广泛用于职业足球俱乐部的球探系统和战术决策支持。通过分析球员的xG表现,俱乐部可以识别那些被低估的“高效终结者”,优化转会市场的投资策略。同时,教练团队能够依据数据调整训练重点,提升球员在关键区域的射门效率。此外,体育媒体和博彩行业也利用此类数据进行比赛预测和内容制作,增强了足球报道的科学性与深度。这些应用不仅提升了足球产业的运营效率,也推动了数据分析在体育管理中的普及与专业化。
数据集最近研究
最新研究方向
在足球数据分析领域,基于期望进球(xG)模型的球员表现预测正成为研究热点。fbref-xg-analysis-2024-2025数据集整合了欧洲五大联赛的球员技术统计,通过特征工程构建了衡量球员射门效率的关键指标。前沿研究聚焦于利用机器学习方法,如随机森林分类器,从多维度特征中识别并预测那些能够持续超越xG的“高效终结者”。这类研究不仅深化了对球员技术特质的数据化理解,更直接关联到球员转会市场的价值评估与球队战术构建,为足球俱乐部的智能化决策提供了实证支持。
以上内容由遇见数据集搜集并总结生成



