Reep
收藏github2026-04-02 更新2026-04-03 收录
下载链接:
https://github.com/withqwerty/reep
下载链接
链接失效反馈官方服务:
资源简介:
足球实体注册表。映射了球员、球队和教练在Transfermarkt、FBref、UEFA、Sofascore等30多个数据提供商中的身份信息。每个人员、俱乐部和实体都有一个稳定的Reep ID,并与其他平台的ID相关联。
Football Entity Registry. This registry maps the identity information of players, teams and coaches across more than 30 data providers including Transfermarkt, FBref, UEFA, Sofascore and other similar platforms. Each individual, club and entity is assigned a stable Reep ID, and is linked to the matching identifiers from other platforms.
创建时间:
2026-03-29
原始信息汇总
Reep 数据集概述
数据集简介
Reep 是一个足球实体注册表,旨在为球员、球队和教练建立跨数据提供商的统一身份映射。它以足球分析先驱查尔斯·里普(Charles Reep)命名。数据集的核心是为每个实体提供一个稳定的维基数据(Wikidata)QID,并将其与超过30个数据提供商(如 Transfermarkt、FBref、UEFA、Sofascore 等)的ID进行关联。
数据文件与规模
| 文件 | 记录数 | 描述 |
|---|---|---|
data/people.csv |
约 430,000 | 包含球员和教练的提供商ID及基本信息 |
data/teams.csv |
约 45,000 | 包含俱乐部的提供商ID及元数据 |
data/names.csv |
不定 | 包含替代名称和别名 |
data/meta.json |
— | 包含生成时间戳和计数信息 |
数据结构
人员数据表 (people.csv) 模式
该表以 (key_wikidata, type) 为唯一键。主要列包括:
key_wikidata: 维基数据 QID(规范键)。type: 实体类型(player或coach)。name: 主要英文名称。full_name: 出生/法定全名。date_of_birth: 出生日期(ISO格式)。nationality: 国籍。position: 场上位置(球员)。height_cm: 身高(厘米)。- 一系列以
key_为前缀的列,对应各数据提供商的ID(例如key_transfermarkt,key_fbref,key_opta等)。
球队数据表 (teams.csv) 模式
主要列包括:
key_wikidata: 维基数据 QID。name: 主要英文名称。country: 所在国家。founded: 成立日期。stadium: 主场球场。- 一系列以
key_为前缀的列,对应各数据提供商的球队ID。
名称数据表 (names.csv) 模式
主要列包括:
key_wikidata: 维基数据 QID。name: 主要名称。alias: 替代名称或别名。
数据覆盖范围与来源
- 覆盖范围:并非每个实体都拥有所有提供商的ID。覆盖率取决于维基数据社区已映射的内容以及自定义的已验证映射。
- 主要数据源:所有数据均通过 SPARQL 从维基数据(Wikidata)提取。维基数据是一个由志愿者维护的免费协作知识库。
- ID映射来源:
- 维基数据:社区维护的外部标识符属性,覆盖了 Transfermarkt、FBref、Soccerway、Sofascore 等多个提供商。
- 自定义验证映射:针对 Opta、Impect、Wyscout、SkillCorner、TheSportsDB、API-Football、FotMob、Understat、WhoScored、SportMonks、Club Elo 等提供商,通过独立验证的方法(如出生日期和姓名匹配、交叉引用验证等)进行补充。
使用方式
数据集可通过多种方式使用:
- 直接使用CSV文件:通过 Python、R 或 SQL 加载和处理数据文件。
- API访问:提供 REST API 接口,支持通过名称搜索、ID解析和查询等功能。API密钥需通过 RapidAPI 获取。
- 命令行工具 (CLI):提供用于搜索、解析、翻译ID和下载数据集的Python脚本。
数据更新
- 注册表每周一从维基数据刷新。
- 增量更新每天获取约1-2K个已更改的实体。
- 每月进行一次完整刷新。
- 每次更新都会获取维基数据社区添加的新实体、更新的ID和更正内容。专有提供商的映射在更新中会持续保留。
贡献方式
- 共享ID映射:欢迎提交包含跨提供商球员或球队ID映射的CSV文件,以丰富数据集。
- 直接编辑维基数据:鼓励用户直接向维基数据添加缺失的外部标识符,数据集会在下次构建时自动获取。
- 代码贡献:欢迎对API、CLI、脚本和文档提交拉取请求。请注意,数据CSV文件每周从维基数据重新生成,请勿直接提交数据更改。
许可证
数据衍生自维基数据,采用 CC0 1.0 许可证。
搜集汇总
数据集介绍

构建方式
在足球数据分析领域,数据集Reep的构建依托于维基数据(Wikidata)这一开放知识库,通过SPARQL查询提取球员、教练及俱乐部的跨平台标识符。其核心机制在于整合社区贡献的外部标识符属性,将来自Transfermarkt、FBref、Sofascore等三十余个数据源的ID映射至统一的Wikidata QID。每周的增量更新捕获维基数据社区的编辑动态,确保数据的新鲜度与准确性;同时,项目团队通过独立验证流程补充专有提供商的映射关系,形成了一套稳定且可扩展的身份注册体系。
特点
Reep数据集以其跨平台身份映射的广度和深度著称,覆盖约43万人员与4.5万俱乐部的多维标识符,包括关键属性如出生日期、国籍与位置信息。其独特之处在于采用Wikidata QID作为规范键,支持同一实体在不同角色(如球员与教练)下的独立记录,并通过别名表容纳多样化的名称变体。数据覆盖呈现层次化特征:维基数据源提供基础广泛的社区维护映射,而定制验证部分则针对Opta、Impect等专业数据源进行精准匹配,确保了标识符在不同应用场景下的可靠性与完整性。
使用方法
该数据集为足球数据分析提供了便捷的跨平台身份解析方案。用户可通过下载CSV文件在本地环境中进行查询,例如利用Python或R语言基于Transfermarkt ID快速检索对应FBref标识符;亦可通过SQLite导入实现复杂关联查询。此外,Reep提供REST API接口,支持通过名称搜索、标识符转换及Wikidata QID查找等功能,便于集成至自动化工作流。命令行工具则允许离线搜索与批量解析,满足不同研究场景下对数据可及性与操作灵活性的需求。
背景与挑战
背景概述
足球数据分析领域长期以来面临实体身份识别标准不统一的挑战,不同数据提供商使用各自独立的标识符体系,导致跨平台数据整合困难。Reep数据集应运而生,其命名旨在致敬足球分析先驱查尔斯·里普,这位英国皇家空军指挥官自20世纪50年代起通过手工记录两千余场足球赛事数据,为现代足球量化分析奠定了基石。该数据集由withqwerty团队基于维基数据社区构建,通过建立球员、教练与俱乐部在Transfermarkt、FBref、Opta等三十余个数据源间的权威映射关系,为足球实体提供了以Wikidata QID为核心的标准化身份注册系统。
当前挑战
该数据集致力于解决足球数据分析中多源实体身份解析的核心难题,其挑战主要体现在两方面:在领域问题层面,需要克服不同数据提供商标识符体系异构、更新频率差异以及历史数据覆盖不全等障碍,确保跨平台身份映射的准确性与时效性;在构建过程中,面临维基数据社区贡献内容质量参差不齐、专有数据源标识符获取困难、双重身份实体(如球员兼教练)的标识符分离逻辑设计,以及海量实体别名匹配与消歧等复杂技术挑战。
常用场景
经典使用场景
在足球数据分析领域,Reep数据集作为实体注册表,其经典使用场景在于跨平台身份映射。研究人员和开发者经常需要整合来自Transfermarkt、FBref、Opta等不同数据源的球员和球队信息,但各平台使用独立的标识符体系,导致数据融合困难。Reep通过提供稳定的Wikidata QID与30多个数据提供商的ID映射,使得用户能够无缝地将一个平台的身份转换为另一个平台的身份,例如将Transfermarkt的球员ID转换为FBref的对应ID,从而为跨源数据集成提供了统一的基础设施。
解决学术问题
Reep数据集有效解决了足球研究中的数据孤岛与实体消歧问题。在学术研究中,学者们常因不同数据源使用互不兼容的标识符而难以进行大规模、跨时期的比较分析。该数据集通过建立权威的实体注册表,为每个球员、教练和俱乐部提供唯一的、持久的Wikidata QID,并链接到多个外部ID,确保了实体在不同数据集中的一致性。这不仅提升了数据整合的效率和准确性,还支持了诸如球员职业生涯轨迹追踪、跨联赛表现评估以及历史数据纵向研究等复杂分析,推动了足球计量学向更严谨、可复现的方向发展。
衍生相关工作
Reep数据集催生了一系列经典的相关工作,特别是在开源足球数据分析工具和标准化框架方面。受其启发,社区开发了诸如`worldfootballR`等R语言包,这些工具利用Reep的映射关系,实现了从多个数据源自动抓取并合并球员统计数据。同时,一些研究项目基于Reep构建了球员跨生涯迁移网络模型,或开发了用于评估转会市场价值的统一指标。在数据工程领域,Reep的架构也影响了其他体育项目的类似注册表设计,如借鉴其理念的篮球或板球实体映射项目,促进了体育数据分析生态系统的互操作性与标准化。
以上内容由遇见数据集搜集并总结生成



