Club Football Match Data (2000 - 2025)|足球比赛数据集|Elo评分数据集
收藏俱乐部足球比赛数据集(2000-2025)
数据集概述
- 数据来源:比赛结果和统计数据来自Football-Data.co.uk,Elo数据来自ClubElo。
- 时间范围:2000/01赛季至2024/25赛季。
- 覆盖范围:27个国家和42个联赛,包括英超、德甲、西甲等顶级联赛。
- 文件数量:2个CSV文件。
- 总行数:约467,000行(截至2025年1月)。
- 总大小:约46MB(截至2025年1月)。
关键特征
- 规模:互联网上最大且免费的足球比赛数据集,包含数万场比赛的统计数据、赔率和Elo评分。
- 可读性:数据集为表格形式,数据清晰易读,表格之间通过俱乐部名称对应。
- 时效性:包含截至2024年12月的最新比赛数据,计划每月或每两个月更新一次。
数据表结构
表1 - ELO RATINGS.csv
- 列名:
Date
(日期)、Club
(俱乐部名称)、Country
(国家代码)、Elo
(Elo评分)。 - 描述:包含每月1日和15日的俱乐部Elo评分快照,部分俱乐部名称与Matches表对应。
表2 - MATCHES.csv
- 列名:
Division
(联赛)、MatchDate
(比赛日期)、MatchTime
(比赛时间)、HomeTeam
(主队)、AwayTeam
(客队)、HomeElo
(主队Elo评分)、AwayElo
(客队Elo评分)、Form3Home
(主队最近3场比赛积分)、Form5Home
(主队最近5场比赛积分)、Form3Away
(客队最近3场比赛积分)、Form5Away
(客队最近5场比赛积分)、FTHome
(主队全场进球)、FTAway
(客队全场进球)、FTResult
(全场结果)、HTHome
(主队半场进球)、HTAway
(客队半场进球)、HTResult
(半场结果)、HomeShots
(主队射门次数)、AwayShots
(客队射门次数)、HomeTarget
(主队射正次数)、AwayTarget
(客队射正次数)、HomeFouls
(主队犯规次数)、AwayFouls
(客队犯规次数)、HomeCorners
(主队角球次数)、AwayCorners
(客队角球次数)、HomeYellow
(主队黄牌数)、AwayYellow
(客队黄牌数)、HomeRed
(主队红牌数)、AwayRed
(客队红牌数)、OddHome
(主队胜赔率)、OddDraw
(平局赔率)、OddAway
(客队胜赔率)、MaxHome
(最大主队胜赔率)、MaxDraw
(最大平局赔率)、MaxAway
(最大客队胜赔率)、Over25
(超过2.5球赔率)、Under25
(低于2.5球赔率)、MaxOver25
(最大超过2.5球赔率)、MaxUnder25
(最大低于2.5球赔率)、HandiSize
(亚洲让球大小)、HandiHome
(主队让球赔率)、HandiAway
(客队让球赔率)。 - 描述:包含历史比赛结果和统计数据,按日期排序,从2000年7月28日至2024年12月23日。
特征工程
- 滞后特征:包括最近3场和5场比赛的进球数、失球数、积分、联赛排名、连胜/连败记录、Elo变化等。
- 衍生特征:包括比赛日期时间、总进球数、双赔率、Elo差异、Elo总和、Elo优势、形式差异、形式动量、隐含概率、博彩公司利润率、射门差异、射门总数、射门准确率、得分效率、防守评分、角球差异、角球总数、比赛主导指数、红黄牌点数、平局可能性、零封概率、预期进球等。
应用场景
- 历史记录:浏览历史数据,查找奇怪记录和逆袭表现。
- 假设检验:测试关于比赛时间、进球数、射门准确率等的假设。
- 比赛预测:使用历史数据、球队状态数据和比赛统计数据预测比赛结果。
- 球队比较:比较不同时期的球队表现。
- 数据可视化:创建Elo强度、平均进球数等指标的可视化图表。

LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
TM-Senti
TM-Senti是由伦敦玛丽女王大学开发的一个大规模、远距离监督的Twitter情感数据集,包含超过1.84亿条推文,覆盖了超过七年的时间跨度。该数据集基于互联网档案馆的公开推文存档,可以完全重新构建,包括推文元数据且无缺失推文。数据集内容丰富,涵盖多种语言,主要用于情感分析和文本分类等任务。创建过程中,研究团队精心筛选了表情符号和表情,确保数据集的质量和多样性。该数据集的应用领域广泛,旨在解决社交媒体情感表达的长期变化问题,特别是在表情符号和表情使用上的趋势分析。
arXiv 收录
UniMed
UniMed是一个大规模、开源的多模态医学数据集,包含超过530万张图像-文本对,涵盖六种不同的医学成像模态:X射线、CT、MRI、超声、病理学和眼底。该数据集通过利用大型语言模型(LLMs)将特定模态的分类数据集转换为图像-文本格式,并结合现有的医学领域的图像-文本数据,以促进可扩展的视觉语言模型(VLM)预训练。
github 收录
Movies Dataset
这个数据集包含电影的详细信息,包括电影名称、评分、类型、年份、发布日期、IMDb评分、投票数、导演、编剧、主演、制作国家、预算、总收入、制作公司和电影时长。
github 收录