five

Availability Data

收藏
github2026-04-01 更新2026-04-01 收录
下载链接:
https://github.com/withqwerty/availability-data
下载链接
链接失效反馈
官方服务:
资源简介:
六个欧洲足球联赛的球员可用性数据。涵盖英超、西甲、德甲、意甲、法甲和葡超联赛,从2015/16赛季到当前赛季。每周从Transfermarkt更新。

Player availability data for six European football leagues, covering the English Premier League, Spanish La Liga, German Bundesliga, Italian Serie A, French Ligue 1 and Portuguese Primeira Liga, spanning from the 2015/16 season to the current season, and updated weekly from Transfermarkt.
创建时间:
2026-03-29
原始信息汇总

数据集概述

数据集基本信息

  • 数据集名称:Availability Data
  • 数据来源:Transfermarkt (https://www.transfermarkt.com/)
  • 更新频率:每周自动更新(每周二通过GitHub Actions刷新)
  • 覆盖时间范围:2015/16赛季至当前赛季(2025/26赛季)
  • 覆盖联赛:英超联赛(Premier League)、西甲(La Liga)、德甲(Bundesliga)、意甲(Serie A)、法甲(Ligue 1)、葡超(Liga Portugal)

数据内容与结构

核心数据记录

记录每个联赛、每个俱乐部、每个比赛日(matchday)中每位球员的出场状态。

球员状态定义

状态 含义
starting 首发登场
sub_in 替补登场
bench 进入比赛日大名单但未出场
injured 因伤病或疾病缺席
suspended 因停赛缺席
national_team 因国家队任务缺席
not_in_squad 健康但未被选入比赛日大名单
not_at_club 已转会或租借至其他俱乐部
not_included 未注册或属于青年队
  • 伤病条目包含一个 detail 字段,记录具体的伤病类型和预计回归日期(例如:"Hamstring injury - Return expected on 05/01/2026")。

文件结构

raw/ # 原始数据:每个俱乐部每个赛季每个联赛一个JSON文件 GB1/ # 英超联赛 2015/ arsenal-fc.json ... 2025/ # 当前赛季(进行中) ES1/ # 西甲 L1/ # 德甲 IT1/ # 意甲 FR1/ # 法甲 PO1/ # 葡超

cleaned/ panel.csv # 清洗聚合数据:每行代表一个俱乐部一个赛季,包含伤病负担等指标

原始JSON文件结构示例

每个文件包含一个俱乐部在一个赛季中参加的所有赛事数据。 json { "club": "Arsenal FC", "tmSlug": "fc-arsenal", "tmId": 11, "season": "2025", "league": "GB1", "scrapedAt": "2026-03-28T...", "competitions": [ { "code": "GB1", "name": "Premier League 25/26", "players": [ { "name": "Bukayo Saka", "tmId": 433177, "position": "RW", "matches": [ { "round": "1", "status": "starting" }, { "round": "5", "status": "injured", "detail": "Hamstring injury - Return expected on 15/10/2025" } ] } ] } ] }

清洗后的面板CSV文件(panel.csv)

每行代表一个俱乐部一个赛季,包含预计算的字段。

列名 描述
league 联赛代码(GB1, ES1, L1, IT1, FR1, PO1)
league_name 完整联赛名称
season 赛季开始年份(例如:2025 代表 2025/26赛季)
tm_id Transfermarkt俱乐部ID
club 俱乐部名称
injury_burden (受伤+停赛的比赛日数)/ 总在队比赛日数
injured_matchdays 状态为"injured"的总球员-比赛日数
suspended_matchdays 状态为"suspended"的总球员-比赛日数
national_team_matchdays 因国家队任务缺席的总球员-比赛日数
starting_matchdays 所有球员的总首发次数
squad_players 至少进入过一次大名单的球员数量
n_competitions 俱乐部参加的赛事数量
in_europe 如果俱乐部参加了欧洲赛事则为1

数据覆盖范围

联赛 代码 覆盖赛季 每赛季俱乐部数量
英超联赛 GB1 2015-2025 20
西甲 ES1 2015-2025 20
德甲 L1 2015-2025 18
意甲 IT1 2015-2025 20
法甲 FR1 2015-2025 18-20
葡超 PO1 2015-2025 18

当前赛季(2025/26)已包含在内并每周更新。

使用方法示例(Python)

python import pandas as pd

panel = pd.read_csv("cleaned/panel.csv")

按联赛计算平均伤病负担

panel.groupby("league_name")["injury_burden"].mean().sort_values()

找出2024/25赛季伤病负担最高的俱乐部

panel[panel["season"] == "2024"].nlargest(10, "injury_burden")[["club", "league_name", "injury_burden"]]

方法论说明

  • 数据来源于Transfermarkt的"Periods of Absence"(Ausfallzeiten)页面。
  • 通用的"absent"状态根据伤病详情文本被重新分类为 suspendednational_teamother_absence
  • injury_burden 的计算排除了国家队征召(因其不属于俱乐部层面的健康问题)。
  • not_at_club(已转会/租借的球员)不计入分子和分母。
  • Transfermarkt的数据是众包的,可能存在报告不一致的情况,尤其是在西甲和葡超。

相关资源

许可声明

数据来源于Transfermarkt,在此提供用于研究和分析目的。

搜集汇总
数据集介绍
main_image_url
构建方式
在足球运动科学领域,球员可用性数据对于评估球队表现和伤病管理至关重要。Availability Data 数据集通过自动化爬虫技术,每周从 Transfermarkt 网站的“缺勤时期”页面抓取信息,覆盖了英超、西甲、德甲、意甲、法甲和葡超六大欧洲联赛,时间跨度自2015/16赛季延续至当前赛季。原始数据以 JSON 格式存储,每个文件对应一个俱乐部在单个赛季中所有赛事的情况,记录了球员在每轮比赛中的状态,如首发、替补、受伤或停赛等。数据清洗过程将原始 JSON 文件整合为面板 CSV 文件,预计算了伤病负担等关键指标,确保了数据的结构化和可分析性。
特点
该数据集以其全面性和精细化的状态分类而著称,不仅涵盖了球员在比赛日的九种状态,包括受伤、停赛、国家队征召等,还特别为受伤条目提供了详细的伤病类型和预期回归日期。数据集的时间连续性较强,自2015年起持续更新,当前赛季的数据每周自动刷新,保证了信息的时效性。此外,清洗后的面板数据提供了俱乐部赛季层面的聚合指标,如伤病负担、受伤比赛日总数等,便于进行跨联赛和跨赛季的比较分析,为足球运动中的健康管理和战术研究提供了坚实的数据基础。
使用方法
研究人员和数据分析师可通过加载清洗后的面板 CSV 文件,利用 Python 的 pandas 等工具进行深入分析。例如,可以计算各联赛的平均伤病负担,或筛选特定赛季中伤病负担最高的俱乐部,从而评估球队的阵容稳定性。数据集支持对球员缺勤原因的细分研究,如区分伤病与停赛的影响,也可结合其他足球数据集进行多维度建模,预测球队表现或评估转会策略。数据每周自动更新,用户可通过 GitHub 获取最新版本,确保分析基于当前信息,适用于学术研究、体育媒体分析和职业足球俱乐部的决策支持。
背景与挑战
背景概述
在体育科学领域,运动员可用性数据对于理解球队表现、伤病管理以及战术部署具有关键意义。Availability Data数据集由独立研究者基于Transfermarkt平台构建,自2015/16赛季起持续更新,覆盖英超、西甲、德甲、意甲、法甲及葡超六大欧洲足球联赛。该数据集系统记录了每位球员在每轮比赛中的状态,包括首发、替补、伤病、停赛等九种分类,旨在量化球员缺席对俱乐部竞技表现的影响,为运动医学、球队运营及体育分析研究提供了标准化、时序性的数据基础。
当前挑战
该数据集致力于解决足球运动中球员可用性对球队表现影响的量化难题,其核心挑战在于如何准确界定与标准化不同缺席原因(如伤病、停赛、国家队征召)对球队的负担。在构建过程中,数据来源于众包平台Transfermarkt,面临报告不一致性,尤其在拉美及葡萄牙联赛中数据质量波动较大;同时,自动抓取与分类流程需处理非结构化文本(如伤病详情),并排除已转会球员的影响,以确保计算出的‘伤病负担’指标具有跨赛季、跨联赛的可比性与可靠性。
常用场景
经典使用场景
在体育科学与管理学交叉领域,球员可用性数据为研究团队表现与伤病影响提供了关键实证基础。该数据集通过追踪欧洲六大顶级足球联赛中每位球员在每轮比赛中的状态,如首发、替补、伤病或停赛等,构建了细粒度的面板数据。研究者可借此分析伤病负担与球队成绩之间的动态关联,例如探究高频率伤病是否导致联赛排名下滑,或评估不同联赛间伤病模式的系统性差异。这类分析常应用于体育经济学与运动医学研究,为量化评估球员可用性对竞技结果的影响提供了标准化框架。
实际应用
在实际运营层面,足球俱乐部与联赛管理机构可利用该数据集进行战略决策支持。教练组与医疗团队可通过历史伤病模式识别高风险球员或特定伤病类型的高发期,从而优化训练负荷管理与康复计划。球探部门在引援评估中可结合球员出勤记录分析其耐用性,降低投资风险。此外,体育博彩与媒体分析机构能够依据球队实时可用性数据调整比赛预测模型,提升赔率设定的准确性。这些应用不仅提升了职业足球的运营效率,也为球迷与利益相关者提供了更透明的球队状态洞察。
衍生相关工作
基于该数据集衍生的经典研究包括对欧洲足球伤病流行病学的宏观分析,如比较不同联赛的伤病负担趋势及其与赛程改革的关联。部分学者构建了机器学习模型,利用历史出勤记录预测未来伤病风险,为预防性医疗干预提供依据。另有工作将可用性数据与球队财务指标结合,探讨球员出勤率对俱乐部营收与转会策略的影响。这些研究常发表于《体育经济学杂志》或国际运动医学会议,推动了“可用性即最佳能力”这一理念在足球管理中的实证化与普及。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作