five

complete_ufc_data.csv|体育数据分析数据集|UFC数据集

收藏
github2023-12-28 更新2024-05-31 收录
体育数据分析
UFC
下载链接:
https://github.com/jansen88/ufc-data
下载链接
链接失效反馈
资源简介:
该数据集综合了UFC过去30年的比赛历史(从1994年开始),选手个人统计数据,以及过去9年的历史投注赔率(从2014年11月开始)。数据集包含了比赛日期、名称、重量级别、选手信息、投注信息、比赛结果和胜利方式等详细信息。

This dataset integrates the competition history of UFC over the past 30 years (starting from 1994), individual statistical data of fighters, and historical betting odds from the past 9 years (starting from November 2014). The dataset includes detailed information such as the date of the match, name, weight class, fighter information, betting information, match results, and methods of victory.
创建时间:
2023-09-19
原始信息汇总

数据集概述

数据集内容

  • 文件名: /data/complete_ufc_data.csv
  • 描述: 该数据集综合了30年的UFC比赛历史(自1994年起)、选手统计数据以及9年的历史投注赔率(自2014年11月起)。

数据字典

列名 示例值 描述 来源
event_date 2023-09-16 UFC赛事日期 从UFC比赛历史中抓取
event_name UFC Fight Night: Grasso vs. Shevchenko 2 UFC赛事名称 从UFC比赛历史中抓取
weight_class Womens Flyweight UFC比赛体重级别 从UFC比赛历史中抓取
fighter1, fighter2 Alexa Grasso, Valentina Shevchenko 选手名称 从UFC比赛历史中抓取
favourite, underdog Valentina Shevchenko, Alexa Grasso, NaN 投注热门和冷门选手 从betmma.tips抓取的历史赔率
favourite_odds, underdog_odds 1.67, 2.88, NaN 投注赔率(小数形式) 从betmma.tips抓取的历史赔率
betting_outcome favourite, underdog, NaN 投注结果 从betmma.tips抓取的历史赔率
outcome fighter1, fighter2, Draw 比赛结果 从UFC比赛历史中抓取
method S-DEC, U-DEC, KO/TKO Punches 胜利方式 从UFC比赛历史中抓取
round 5 胜利回合 从UFC比赛历史中抓取
fighter1_*, fighter2_* 选手属性 从UFC选手统计中抓取
events_extract_ts, odds_extract_ts, fighter_extract_ts 2023-09-21 02:02:55.178363 数据抓取时间戳

数据提取

  • 代码: 使用Python脚本进行网页抓取和数据预处理。
  • 功能: 已完成UFC数据抓取(选手统计和比赛结果)、历史投注赔率抓取及数据清洗。

探索性数据分析(EDA)/ 数据可视化

  • 洞察: 历史胜利概率显示年龄和每分钟平均打击次数与比赛成功有强相关性。年轻或打击输出更高的选手统计上有竞争优势,赢得约60%的比赛。
  • 洞察: 投注热门获胜的历史概率从略高于50%上升到超过75%,当小数赔率差超过2.0时。此外,随着赔率差的增加,这种可能性增加,当赔率差超过4.5时,约90%的比赛倾向于热门选手。

预测模型

  • 开发状态: 正在开发中,使用机器学习模型测试基于选手统计的预测比赛结果的能力。
  • 初步测试: 初始模型(GBM, 逻辑回归)在未包含投注赔率的情况下,预测准确率约为65%。
  • 未来迭代: 计划测试更多特征,如连胜记录、终结率、衍生特征(耐力、摔跤手/打击手/格斗手等标签)以及是否为投注热门。

设置

  • 依赖管理: 使用Poetry或pip进行依赖管理。
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过网络爬虫技术从UFC官方网站和betmma.tips网站上抓取了长达30年的比赛历史数据,涵盖了从1994年至今的UFC比赛记录。此外,数据集还包括了自2014年11月以来的历史投注赔率。通过整合这些数据,构建了一个包含比赛日期、比赛名称、体重级别、选手统计数据以及投注信息的全面数据集。数据清洗和预处理步骤确保了数据的准确性和一致性,为后续的分析和模型构建提供了坚实的基础。
特点
该数据集的显著特点在于其全面性和时效性。它不仅包含了UFC比赛的详细历史记录,还整合了选手的统计数据和投注赔率,为研究比赛结果和选手表现提供了丰富的信息。此外,数据集的结构设计便于查询和分析,特别是对于投注结果的查询。数据集的更新机制允许通过增量更新来提高效率,确保数据的实时性和准确性。
使用方法
使用该数据集时,用户可以通过提供的Python脚本进行数据抓取和预处理。脚本支持单独或批量抓取比赛结果、选手统计数据和投注赔率。数据集的结构设计使得用户可以轻松地进行探索性数据分析(EDA)和数据可视化。此外,数据集还支持机器学习模型的训练和测试,特别是在预测比赛结果方面。用户可以通过提供的Jupyter笔记本进行模型实验和分析,进一步探索数据集的潜力。
背景与挑战
背景概述
终极格斗冠军赛(UFC)作为全球混合武术(MMA)的领军组织,自1994年以来,每周举办多场赛事,涵盖多个体重级别和背景的选手。complete_ufc_data.csv数据集由主要研究人员或机构编纂,旨在提供一个全面且公开的UFC数据资源,包括30年的比赛历史、选手统计数据以及9年的历史投注赔率。该数据集不仅服务于个人数据分析兴趣,还为构建比赛结果预测模型提供了基础,对MMA领域的研究具有重要影响。
当前挑战
该数据集在构建过程中面临多项挑战。首先,数据来源多样,包括UFC官方网站和betmma.tips,数据抓取和整合过程中需确保数据的一致性和准确性。其次,历史投注赔率数据存在缺失和不匹配问题,增加了数据清洗的复杂性。此外,MMA作为高度动态和不可预测的运动,比赛结果的预测模型构建面临显著挑战,现有模型的准确率仅约为65%,与简单选择热门选手的策略相当,表明现有模型尚未完全捕捉到决定比赛结果的关键因素。
常用场景
经典使用场景
在综合格斗(MMA)领域,complete_ufc_data.csv数据集的经典使用场景主要集中在预测比赛结果和分析选手表现。通过整合30年的比赛历史、选手统计数据以及9年的历史投注赔率,研究者可以构建预测模型,评估选手在不同比赛条件下的胜率。此外,该数据集还支持对选手的各项指标进行深入分析,如打击效率、摔跤能力等,从而揭示影响比赛结果的关键因素。
衍生相关工作
基于complete_ufc_data.csv数据集,衍生了一系列经典工作,包括比赛结果预测模型、选手表现分析工具和投注策略优化算法。例如,研究者开发了基于梯度提升机(GBM)和逻辑回归的预测模型,准确率达到了65%,与市场预测结果相当。此外,数据集还启发了对选手特征差异(如年龄、打击效率等)的深入研究,推动了MMA领域的理论和实践发展。
数据集最近研究
最新研究方向
在综合格斗(MMA)领域,complete_ufc_data.csv数据集的最新研究方向主要集中在利用机器学习模型预测比赛结果。研究者们通过分析选手的统计数据、历史比赛记录以及博彩赔率,构建预测模型,以期提高预测准确性。当前的研究表明,尽管初步模型的准确率约为65%,与博彩市场的预测结果相当,但仍有显著的改进空间。未来的研究可能聚焦于引入更多特征,如选手的连胜记录、终结率以及战斗风格标签,以捕捉更多影响比赛结果的动态因素。此外,考虑到MMA比赛的高度不可预测性,研究者们也在探索如何通过模型优化来应对频繁出现的冷门事件。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

CliMedBench

CliMedBench是一个大规模的中文医疗大语言模型评估基准,由华东师范大学等机构创建。该数据集包含33,735个问题,涵盖14个核心临床场景,主要来源于顶级三级医院的真实电子健康记录和考试练习。数据集的创建过程包括专家指导的数据选择和多轮质量控制,确保数据的真实性和可靠性。CliMedBench旨在评估和提升医疗大语言模型在临床决策支持、诊断和治疗建议等方面的能力,解决医疗领域中模型性能评估的不足问题。

arXiv 收录

中国知识产权局专利数据库

该数据集包含了中国知识产权局发布的专利信息,涵盖了专利的申请、授权、转让等详细记录。数据内容包括专利号、申请人、发明人、申请日期、授权日期、专利摘要等。

www.cnipa.gov.cn 收录

MIT Indoor Scenes

室内场景识别是高水平视觉中一个具有挑战性的开放性问题。大多数适用于室外场景的场景识别模型在室内领域的表现都较差。该数据库包含67个室内类别,共15620张图像。图像的数量因类别而异,但每个类别至少有100张图像。所有图像均为jpg格式。此处提供的图像仅用于研究目的。

阿里云天池 收录

中国逐日降水数据集(1961-2022,0.1°/0.25°/0.5°)

CHM_PRE数据集基于中国境内及周边1961至今共2839个站点的日降水观测,在传统的“降水背景场 + 降水比值场”的数据集构建思路上,尝试应用月值降水约束和地形特征校正,并依据中国范围内约4万个高密度站点2015–2019年的日降水量插值后数据进行精度评价。经评估认为,CHM_PRE可以较好的表征降水的空间变异性,其日值时间序列与高密度站点日值降水观测结果之间的相关系数中位数为0.78,均方根误差中位数为8.8 mm/d,KGE值中位数为0.69,与目前常用的降水数据集(CGDPA、CN05.1、CMA V2.0)有很好的一致性。 数据集的时间范围为1961年至今,空间分辨率为0.1°、0.25°和0.5°,经纬度范围为18°N–54°N, 72°E–136°E。

国家青藏高原科学数据中心 收录