goal-contribution-efficiency-top-5-leagues
收藏Hugging Face2026-04-15 更新2026-04-16 收录
下载链接:
https://huggingface.co/datasets/rotemknat/goal-contribution-efficiency-top-5-leagues
下载链接
链接失效反馈官方服务:
资源简介:
该数据集专注于分析2019-2020赛季欧洲五大联赛(英格兰、法国、德国、意大利和西班牙)的球员表现数据,包含2,661名球员的22个字段。数据集旨在研究球员实际进球和助攻输出与预期指标(xG和xA)之间的关系,探讨高效球员是否持续超出预期或仅因高参与度而表现优异。关键指标包括总参与度(进球+助攻)、预期参与度(xG+xA)和效率差异(实际表现与预期之差)。数据筛选标准为至少出场900分钟的球员。主要字段包括球员姓名、所属联赛、出场时间、实际进球/助攻数、预期进球/助攻数等。该数据集适用于体育分析、足球数据科学和预期指标(xG/xA)研究,采用CC-BY-4.0许可协议,数据规模介于1K到10K之间。
创建时间:
2026-04-10
原始信息汇总
数据集概述
基本信息
- 数据集名称:Football Analytics: Efficiency vs. Volume (2019-2020)
- 数据集地址:https://huggingface.co/datasets/rotemknat/goal-contribution-efficiency-top-5-leagues
- 语言:英语
- 许可证:cc-by-4.0
- 标签:体育、足球、数据科学、xG、分析、表格
- 数据规模:1K<n<10K
项目概述
本项目探索了2019-2020赛季欧洲五大联赛(英格兰、法国、德国、意大利、西班牙)的球员表现数据。数据集包含2,661名球员和22列数据,用于分析实际进球产出与预期指标之间的关系。
研究问题
“顶级进球贡献者是持续超出其预期指标(xG和xA),还是他们的高产出仅仅是高数量的结果?”
数据与方法论
分析聚焦于以下关键指标:
- 总参与度:进球与助攻之和。
- 预期参与度:预期指标之和。
- 效率差值:实际表现与预期指标之间的差异。
- 筛选条件:为确保统计显著性,分析聚焦于上场时间至少900分钟的球员。
关键字段说明
| 字段名 | 描述 |
|---|---|
player_name |
球员全名 |
league |
所属联赛 |
minutes_played |
总上场时间 |
goals / assists |
实际统计产出 |
xG / xA |
基于射门/传球质量的预期进球/助攻 |
分析发现
奇罗·因莫比莱和莱昂内尔·梅西均有45次进球贡献,但奇罗·因莫比莱以更低的预期值实现了相同的贡献。这表明在2019-2020赛季,奇罗·因莫比莱是欧洲五大联赛中效率最高的球员。
数据来源与许可
- 原始数据来源:In-depth Soccer Statistics (Kaggle)
- 项目性质:作为数据科学学术作业的一部分开发
- 许可证:cc-by-4.0
搜集汇总
数据集介绍

构建方式
在足球数据分析领域,该数据集聚焦于2019-2020赛季欧洲五大联赛(英格兰、法国、德国、意大利、西班牙)的球员表现。其构建过程首先从Kaggle平台的深度足球统计数据中获取原始资料,随后通过严谨的数据清洗与筛选,仅保留出场时间不少于900分钟的球员记录,以确保统计显著性。数据集最终涵盖了2,661名球员的22个关键字段,包括实际进球、助攻及其对应的期望值(xG与xA),为量化分析球员效率与产出关系奠定了坚实基础。
特点
本数据集的核心特点在于其系统整合了实际表现指标与期望度量,从而能够深入探讨球员贡献的效率差异。通过引入“总参与度”(实际进球与助攻之和)与“期望参与度”(xG与xA之和)等衍生变量,并结合“效率差值”这一关键指标,数据集不仅揭示了球员的实际产出,更量化了其相对于机会质量的超额表现。此外,数据覆盖五大联赛,提供了跨联赛比较的视角,使得分析能够兼顾整体趋势与个体异常值,例如高效球员的识别。
使用方法
该数据集适用于足球科学分析与体育数据挖掘研究。使用者可借助Python生态中的Pandas、Matplotlib与Seaborn等工具进行数据加载与处理,通过Jupyter Notebook实现交互式分析。典型应用包括计算效率差值以识别表现超出预期的球员,或比较不同联赛的效率分布模式。数据集以表格形式存储,字段清晰定义,便于直接进行统计建模、可视化探索以及学术研究,例如验证高产球员是否依赖大量机会或具备卓越转化能力。
背景与挑战
背景概述
在体育数据分析领域,量化运动员表现与预期指标之间的差异已成为评估个体效率的核心议题。Goal-Contribution-Efficiency-Top-5-Leagues数据集由数据科学研究者于2020年构建,聚焦于2019-2020赛季欧洲五大足球联赛(英格兰、法国、德国、意大利、西班牙)的球员表现。该数据集收录了2661名球员的22维特征,旨在探究实际进球贡献与预期进球(xG)及预期助攻(xA)之间的关联性。其核心研究问题在于甄别顶级球员的高产出是源于超越预期的卓越效率,抑或仅仅是高数量机会的必然结果。这一数据集的建立为足球分析提供了实证基础,推动了基于期望模型的绩效评估方法在体育科学中的应用。
当前挑战
该数据集致力于解决足球运动员表现评估中的效率量化挑战,即如何准确区分球员的实际产出是源自个人技术优势还是机会数量优势。在构建过程中,研究者面临多重挑战:首先,原始数据的质量与一致性需严格校验,确保xG与xA等期望指标的计算模型在不同联赛间具有可比性;其次,为保障统计显著性,需合理设定筛选阈值(如出场时间≥900分钟),这可能导致部分样本被排除,影响分析的全面性。此外,足球运动的动态性与情境依赖性使得单纯依靠数值指标难以完全捕捉球员的战术贡献,数据维度可能未能涵盖如防守参与、关键传球等隐性因素,从而为深入解读带来局限。
常用场景
经典使用场景
在足球运动分析领域,该数据集为评估球员进攻效率提供了量化基准。研究者通过对比实际进球与助攻数据同预期指标(xG与xA)之间的差异,能够深入剖析球员在射门与传球决策中的表现质量。经典应用场景包括识别那些在相同预期贡献下产出更高的高效球员,例如分析2019-2020赛季欧洲五大联赛中,像因莫比莱这样以较低预期值实现高额贡献的典型案例,从而揭示球员个体在进攻端的真实影响力。
解决学术问题
该数据集有效解决了足球分析中关于‘效率与产量’的经典学术争议。传统统计往往仅关注进球与助攻的绝对数量,而本数据集引入的预期指标(xG/xA)与效率差值(Efficiency Delta)允许研究者剥离机会质量的影响,精确衡量球员的转化能力。这有助于回答核心研究问题:顶级贡献者的高产出是源于大量机会的积累,还是超越预期的卓越效率?从而推动运动科学从描述性统计向因果推断深化。
衍生相关工作
基于该数据集衍生的经典工作主要集中在足球分析模型的拓展与验证上。例如,后续研究利用其效率指标开发了球员价值评估体系,将预期数据与市场估值关联;亦有工作结合机器学习方法,预测球员效率随环境变化的趋势。这些衍生研究不仅巩固了预期目标(xG)在体育数据科学中的核心地位,还促进了跨联赛比较框架的形成,为全球足球分析社区提供了可复用的方法论基础。
以上内容由遇见数据集搜集并总结生成



