Transfermarkt Football Dataset
收藏github2025-08-21 更新2025-08-22 收录
下载链接:
https://github.com/salimt/football-datasets
下载链接
链接失效反馈官方服务:
资源简介:
完整的足球/体育数据湖,包含来自Transfermarkt的41000多名球员。包括球员档案、表现统计数据、市场价值、转会历史、伤病记录、国家队数据以及队友关系。
A comprehensive football/sports data lake containing more than 41,000 players sourced from Transfermarkt. It includes player profiles, performance statistics, market values, transfer histories, injury records, national team data, and teammate relationships.
创建时间:
2025-08-21
原始信息汇总
足球数据集概述
数据集基本信息
- 数据集名称:Most Comprehensive Transfermarkt Dataset
- 数据来源:Transfermarkt
- 最后更新时间:2025年8月
- 数据总量:超过216万条记录
- 许可协议:GitHub License
数据覆盖范围
- 球员总数:超过40,700名职业足球运动员
- 球队总数:超过1,400家全球俱乐部
- 地理范围:全球所有主要联赛
- 数据类别:10个综合数据类别
数据结构
球员数据类别(7个类别)
- 球员档案:40,700+条记录
- 球员表现:765,000+条记录
- 球员市场价值:427,000+条记录
- 球员转会历史:280,000+条记录
- 球员伤病历史:78,000+条记录
- 国家队表现:62,000+条记录
- 队友关系:681,000+条记录
球队数据类别(3个类别)
- 球队详情:1,300+支球队
- 球队竞赛赛季:1,300+条记录
- 球队子关系:4,900+条记录
数据质量特征
- 去重处理:内容哈希防止重复数据
- 增量更新:仅重新处理变更数据
- 错误跟踪:记录失败的URL用于监控
- Unicode支持:正确处理国际字符
- 时间戳跟踪:所有记录包含更新时间戳
数据特点
- 原始数据格式:CSV文件
- 数据组织结构:完整的湖式结构
- 实体关系:包含完整的实体关系图
- 数据自由度高:提供原始数据供自由探索和分析
数据用途
- 自由探索和数据发现
- 分析技能开发
- 机器学习实验
- 隐藏洞察发现
- 数据管道构建实践
支持信息
- 支持方式:GitHub Sponsors赞助
- 赞助用途:数据更新、扩展覆盖、基础设施维护、数据质量提升
联系方式
- GitHub:https://github.com/salimt
- LinkedIn:https://www.linkedin.com/in/salim-tasan
- 问题反馈:通过GitHub Issues提交数据集相关问题
搜集汇总
数据集介绍

构建方式
在足球数据分析领域,Transfermarkt Football Dataset通过系统化的网络爬虫技术从Transfermarkt平台获取原始数据,覆盖全球超过4.1万名球员及1400余家俱乐部。数据采集过程采用内容哈希去重机制与增量更新策略,确保信息唯一性与时效性;所有记录均附带时间戳,并支持国际化字符处理,构建出包含球员档案、市场价值、转会历史、伤病记录等10类结构化数据的完整数据湖。
使用方法
研究者可通过解析CSV文件直接访问原始数据层,利用实体关系图谱进行多表关联查询,例如结合球员表现与市场价值分析绩效指标,或通过转会历史与队友关系挖掘团队协作模式。数据支持自定义清洗与指标构建,适用于机器学习模型训练、战术趋势分析及球员价值评估等场景,使用者需依据数据模式文档自主实现ETL流程与可视化叙事。
背景与挑战
背景概述
Transfermarkt足球数据集由独立开发者salimt于2025年构建,作为全球最全面的足球运动员数据湖,涵盖超过4.1万名职业球员的完整档案。该数据集源自权威足球平台Transfermarkt,整合了球员资料、市场价值、转会历史、伤病记录等十大数据类别,为足球经济学和运动员表现分析提供了前所未有的多维度研究基础。其全球覆盖1400余家俱乐部及主要联赛的体系,显著推动了足球产业量化研究和智能决策支持系统的发展。
当前挑战
该数据集核心挑战在于解决足球运动员多维价值评估的复杂性,包括动态市场价值建模、跨联赛性能指标标准化及职业生涯轨迹预测。数据构建过程中需克服Transfermarkt平台反爬虫机制、非结构化历史数据整合、多语言文本处理以及实时数据同步等工程技术难题。此外,球员转会费模糊表述的量化转换、伤病记录与比赛表现的时序对齐,以及跨国联赛统计口径的统一性,均构成数据质量保障的关键瓶颈。
常用场景
经典使用场景
在足球数据分析领域,Transfermarkt足球数据集为研究者提供了超过4.1万名球员的完整档案。该数据集最经典的应用场景在于球员价值评估模型的构建,通过整合市场价值时序数据、转会历史记录和表现统计数据,能够系统分析球员身价波动与赛场表现之间的量化关系。研究人员可利用其多维特征构建机器学习模型,预测球员未来市场价值趋势,为俱乐部引援决策提供数据支撑。
解决学术问题
该数据集有效解决了体育经济学中球员估值标准化缺失的学术难题。通过提供427,000余条市场价值记录与280,000次转会交易数据,学者能够建立基于表现指标的估值模型,突破传统主观评估的局限。其意义在于首次实现了大规模球员价值的纵向追踪,为研究职业足球劳动力市场效率、价格形成机制提供了前所未有的数据基础,推动了体育计量经济学研究范式的革新。
实际应用
职业足球俱乐部将该数据集广泛应用于球员招募和阵容优化实践。球探部门通过分析球员伤病历史、队友配合效率(PPG指标)及不同联赛适应度数据,构建科学的引援评估体系。体育总监利用转会历史模块分析俱乐部间交易模式,制定谈判策略。此外,数据分析团队还可通过球员表现与市场价值的关联分析,识别被低估的潜力球员,实现成本效益最优的阵容构建。
数据集最近研究
最新研究方向
在足球数据分析领域,Transfermarkt数据集正推动球员估值模型的精细化发展,研究者通过机器学习算法整合市场价值曲线、伤病历史与队友协同效应等多维特征,构建动态预测框架。当前研究热点聚焦于利用转会网络分析揭示俱乐部引援策略的潜在规律,并结合表现数据量化环境因素对球员发展的长期影响。这类研究不仅为职业俱乐部的战术决策提供数据支撑,更在体育经济学范畴开创了价值评估的新范式,对全球足球产业的数据化转型具有深远意义。
以上内容由遇见数据集搜集并总结生成



