Club Football Match Data (2000 - 2025)|足球比赛数据集|Elo评分数据集
收藏俱乐部足球比赛数据集(2000-2025)
数据集概述
- 数据来源:比赛结果和统计数据来自Football-Data.co.uk,Elo数据来自ClubElo。
- 时间范围:2000/01赛季至2024/25赛季。
- 覆盖范围:27个国家和42个联赛,包括英超、德甲、西甲等顶级联赛。
- 文件数量:2个CSV文件。
- 总行数:约467,000行(截至2025年1月)。
- 总大小:约46MB(截至2025年1月)。
关键特征
- 规模:互联网上最大且免费的足球比赛数据集,包含数万场比赛的统计数据、赔率和Elo评分。
- 可读性:数据集为表格形式,数据清晰易读,表格之间通过俱乐部名称对应。
- 时效性:包含截至2024年12月的最新比赛数据,计划每月或每两个月更新一次。
数据表结构
表1 - ELO RATINGS.csv
- 列名:
Date
(日期)、Club
(俱乐部名称)、Country
(国家代码)、Elo
(Elo评分)。 - 描述:包含每月1日和15日的俱乐部Elo评分快照,部分俱乐部名称与Matches表对应。
表2 - MATCHES.csv
- 列名:
Division
(联赛)、MatchDate
(比赛日期)、MatchTime
(比赛时间)、HomeTeam
(主队)、AwayTeam
(客队)、HomeElo
(主队Elo评分)、AwayElo
(客队Elo评分)、Form3Home
(主队最近3场比赛积分)、Form5Home
(主队最近5场比赛积分)、Form3Away
(客队最近3场比赛积分)、Form5Away
(客队最近5场比赛积分)、FTHome
(主队全场进球)、FTAway
(客队全场进球)、FTResult
(全场结果)、HTHome
(主队半场进球)、HTAway
(客队半场进球)、HTResult
(半场结果)、HomeShots
(主队射门次数)、AwayShots
(客队射门次数)、HomeTarget
(主队射正次数)、AwayTarget
(客队射正次数)、HomeFouls
(主队犯规次数)、AwayFouls
(客队犯规次数)、HomeCorners
(主队角球次数)、AwayCorners
(客队角球次数)、HomeYellow
(主队黄牌数)、AwayYellow
(客队黄牌数)、HomeRed
(主队红牌数)、AwayRed
(客队红牌数)、OddHome
(主队胜赔率)、OddDraw
(平局赔率)、OddAway
(客队胜赔率)、MaxHome
(最大主队胜赔率)、MaxDraw
(最大平局赔率)、MaxAway
(最大客队胜赔率)、Over25
(超过2.5球赔率)、Under25
(低于2.5球赔率)、MaxOver25
(最大超过2.5球赔率)、MaxUnder25
(最大低于2.5球赔率)、HandiSize
(亚洲让球大小)、HandiHome
(主队让球赔率)、HandiAway
(客队让球赔率)。 - 描述:包含历史比赛结果和统计数据,按日期排序,从2000年7月28日至2024年12月23日。
特征工程
- 滞后特征:包括最近3场和5场比赛的进球数、失球数、积分、联赛排名、连胜/连败记录、Elo变化等。
- 衍生特征:包括比赛日期时间、总进球数、双赔率、Elo差异、Elo总和、Elo优势、形式差异、形式动量、隐含概率、博彩公司利润率、射门差异、射门总数、射门准确率、得分效率、防守评分、角球差异、角球总数、比赛主导指数、红黄牌点数、平局可能性、零封概率、预期进球等。
应用场景
- 历史记录:浏览历史数据,查找奇怪记录和逆袭表现。
- 假设检验:测试关于比赛时间、进球数、射门准确率等的假设。
- 比赛预测:使用历史数据、球队状态数据和比赛统计数据预测比赛结果。
- 球队比较:比较不同时期的球队表现。
- 数据可视化:创建Elo强度、平均进球数等指标的可视化图表。

中国1km分辨率逐月降水量数据集(1901-2023)
该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。
国家青藏高原科学数据中心 收录
Materials Project
材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)
OpenDataLab 收录
Breast Cancer Dataset
该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。
github 收录
MIT Indoor Scenes
室内场景识别是高水平视觉中一个具有挑战性的开放性问题。大多数适用于室外场景的场景识别模型在室内领域的表现都较差。该数据库包含67个室内类别,共15620张图像。图像的数量因类别而异,但每个类别至少有100张图像。所有图像均为jpg格式。此处提供的图像仅用于研究目的。
阿里云天池 收录
ChinaTravel
ChinaTravel是由南京大学国家重点实验室开发的一个真实世界基准数据集,专门用于评估语言代理在中国旅行规划中的应用。该数据集涵盖了中国10个最受欢迎城市的旅行信息,包括720个航班和5770趟列车,以及3413个景点、4655家餐厅和4124家酒店的详细信息。数据集通过问卷调查收集用户需求,并设计了一个可扩展的领域特定语言来支持自动评估。ChinaTravel旨在解决复杂的真实世界旅行规划问题,特别是在多兴趣点行程安排和用户偏好满足方面,为语言代理在旅行规划中的应用提供了重要的测试平台。
arXiv 收录