Club Football Match Data (2000 - 2025)|足球比赛数据集|Elo评分数据集
收藏俱乐部足球比赛数据集(2000-2025)
数据集概述
- 数据来源:比赛结果和统计数据来自Football-Data.co.uk,Elo数据来自ClubElo。
- 时间范围:2000/01赛季至2024/25赛季。
- 覆盖范围:27个国家和42个联赛,包括英超、德甲、西甲等顶级联赛。
- 文件数量:2个CSV文件。
- 总行数:约467,000行(截至2025年1月)。
- 总大小:约46MB(截至2025年1月)。
关键特征
- 规模:互联网上最大且免费的足球比赛数据集,包含数万场比赛的统计数据、赔率和Elo评分。
- 可读性:数据集为表格形式,数据清晰易读,表格之间通过俱乐部名称对应。
- 时效性:包含截至2024年12月的最新比赛数据,计划每月或每两个月更新一次。
数据表结构
表1 - ELO RATINGS.csv
- 列名:
Date
(日期)、Club
(俱乐部名称)、Country
(国家代码)、Elo
(Elo评分)。 - 描述:包含每月1日和15日的俱乐部Elo评分快照,部分俱乐部名称与Matches表对应。
表2 - MATCHES.csv
- 列名:
Division
(联赛)、MatchDate
(比赛日期)、MatchTime
(比赛时间)、HomeTeam
(主队)、AwayTeam
(客队)、HomeElo
(主队Elo评分)、AwayElo
(客队Elo评分)、Form3Home
(主队最近3场比赛积分)、Form5Home
(主队最近5场比赛积分)、Form3Away
(客队最近3场比赛积分)、Form5Away
(客队最近5场比赛积分)、FTHome
(主队全场进球)、FTAway
(客队全场进球)、FTResult
(全场结果)、HTHome
(主队半场进球)、HTAway
(客队半场进球)、HTResult
(半场结果)、HomeShots
(主队射门次数)、AwayShots
(客队射门次数)、HomeTarget
(主队射正次数)、AwayTarget
(客队射正次数)、HomeFouls
(主队犯规次数)、AwayFouls
(客队犯规次数)、HomeCorners
(主队角球次数)、AwayCorners
(客队角球次数)、HomeYellow
(主队黄牌数)、AwayYellow
(客队黄牌数)、HomeRed
(主队红牌数)、AwayRed
(客队红牌数)、OddHome
(主队胜赔率)、OddDraw
(平局赔率)、OddAway
(客队胜赔率)、MaxHome
(最大主队胜赔率)、MaxDraw
(最大平局赔率)、MaxAway
(最大客队胜赔率)、Over25
(超过2.5球赔率)、Under25
(低于2.5球赔率)、MaxOver25
(最大超过2.5球赔率)、MaxUnder25
(最大低于2.5球赔率)、HandiSize
(亚洲让球大小)、HandiHome
(主队让球赔率)、HandiAway
(客队让球赔率)。 - 描述:包含历史比赛结果和统计数据,按日期排序,从2000年7月28日至2024年12月23日。
特征工程
- 滞后特征:包括最近3场和5场比赛的进球数、失球数、积分、联赛排名、连胜/连败记录、Elo变化等。
- 衍生特征:包括比赛日期时间、总进球数、双赔率、Elo差异、Elo总和、Elo优势、形式差异、形式动量、隐含概率、博彩公司利润率、射门差异、射门总数、射门准确率、得分效率、防守评分、角球差异、角球总数、比赛主导指数、红黄牌点数、平局可能性、零封概率、预期进球等。
应用场景
- 历史记录:浏览历史数据,查找奇怪记录和逆袭表现。
- 假设检验:测试关于比赛时间、进球数、射门准确率等的假设。
- 比赛预测:使用历史数据、球队状态数据和比赛统计数据预测比赛结果。
- 球队比较:比较不同时期的球队表现。
- 数据可视化:创建Elo强度、平均进球数等指标的可视化图表。

2020年中西亚30m Landsat TM/OLI土壤盐渍化分布数据集
该土壤盐渍化产品覆盖范围涵盖中亚五国、西亚土耳其、阿富汗及伊朗全境,该产品使用Landsat、SPOT数据遥感数据解译得到,其中大部分区域使用Landsat数据,部分重点监测区域采用SPOT数据进行补充,利用多源、多时相遥感影像,结合遥感参数、地形地貌和自然环境因子,采用面向对象的遥感分类方法,应用影像分割、决策树分类、变化监测等关键技术完成。该2020年30米空间分辨率数据可用于中西亚盐渍化时空变化分析及资源利用评估,可为农牧业、林业、环境保护、水资源保护、环境保护等政府相关部门的规划与管理提供基础信息。
地球大数据科学工程 收录
World Flights
该数据集包含使用OpenSky Network实时API收集的两小时飞行数据。飞行颜色基于出发国家,记录了18000次飞行,由于缺乏卫星覆盖,海洋上的航线不完整。每条航线还加入了来自airlinecodes.co.uk的航空公司信息。
github 收录
MME-RealWorld
MME-RealWorld是一个精心设计的基准,旨在解决现实世界应用中的实际问题。该数据集包含13,366张高分辨率图像,平均分辨率为2,000 × 1,500像素,涵盖29,429个由25名众包工作者和7名MLLM专家精心制作的注释,涉及43个任务。数据集的主要优势包括:1) 数据规模:由32名志愿者手动注释的29,429个QA对,是目前已知的最大全人工注释基准。2) 数据质量:高分辨率图像和人工完成的注释,确保了数据质量。3) 任务难度和实际应用价值:即使是最高级的模型,准确率也未超过60%,许多现实世界的任务比传统基准更难。4) 中文版本MME-RealWord-CN:针对中文场景收集的图像和注释,解决了英文版本翻译可能存在的问题。
huggingface 收录
MOOCs Dataset
该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。
www.kaggle.com 收录
中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录