complete_ufc_data.csv|体育数据分析数据集|UFC数据集
收藏数据集概述
数据集内容
- 文件名:
/data/complete_ufc_data.csv
- 描述: 该数据集综合了30年的UFC比赛历史(自1994年起)、选手统计数据以及9年的历史投注赔率(自2014年11月起)。
数据字典
列名 | 示例值 | 描述 | 来源 |
---|---|---|---|
event_date |
2023-09-16 |
UFC赛事日期 | 从UFC比赛历史中抓取 |
event_name |
UFC Fight Night: Grasso vs. Shevchenko 2 |
UFC赛事名称 | 从UFC比赛历史中抓取 |
weight_class |
Womens Flyweight |
UFC比赛体重级别 | 从UFC比赛历史中抓取 |
fighter1 , fighter2 |
Alexa Grasso , Valentina Shevchenko |
选手名称 | 从UFC比赛历史中抓取 |
favourite , underdog |
Valentina Shevchenko , Alexa Grasso , NaN |
投注热门和冷门选手 | 从betmma.tips抓取的历史赔率 |
favourite_odds , underdog_odds |
1.67 , 2.88 , NaN |
投注赔率(小数形式) | 从betmma.tips抓取的历史赔率 |
betting_outcome |
favourite , underdog , NaN |
投注结果 | 从betmma.tips抓取的历史赔率 |
outcome |
fighter1 , fighter2 , Draw |
比赛结果 | 从UFC比赛历史中抓取 |
method |
S-DEC , U-DEC , KO/TKO Punches |
胜利方式 | 从UFC比赛历史中抓取 |
round |
5 |
胜利回合 | 从UFC比赛历史中抓取 |
fighter1_* , fighter2_* |
选手属性 | 从UFC选手统计中抓取 | |
events_extract_ts , odds_extract_ts , fighter_extract_ts |
2023-09-21 02:02:55.178363 |
数据抓取时间戳 |
数据提取
- 代码: 使用Python脚本进行网页抓取和数据预处理。
- 功能: 已完成UFC数据抓取(选手统计和比赛结果)、历史投注赔率抓取及数据清洗。
探索性数据分析(EDA)/ 数据可视化
- 洞察: 历史胜利概率显示年龄和每分钟平均打击次数与比赛成功有强相关性。年轻或打击输出更高的选手统计上有竞争优势,赢得约60%的比赛。
- 洞察: 投注热门获胜的历史概率从略高于50%上升到超过75%,当小数赔率差超过2.0时。此外,随着赔率差的增加,这种可能性增加,当赔率差超过4.5时,约90%的比赛倾向于热门选手。
预测模型
- 开发状态: 正在开发中,使用机器学习模型测试基于选手统计的预测比赛结果的能力。
- 初步测试: 初始模型(GBM, 逻辑回归)在未包含投注赔率的情况下,预测准确率约为65%。
- 未来迭代: 计划测试更多特征,如连胜记录、终结率、衍生特征(耐力、摔跤手/打击手/格斗手等标签)以及是否为投注热门。
设置
- 依赖管理: 使用Poetry或pip进行依赖管理。

中国农村金融统计数据
该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。
www.pbc.gov.cn 收录
CliMedBench
CliMedBench是一个大规模的中文医疗大语言模型评估基准,由华东师范大学等机构创建。该数据集包含33,735个问题,涵盖14个核心临床场景,主要来源于顶级三级医院的真实电子健康记录和考试练习。数据集的创建过程包括专家指导的数据选择和多轮质量控制,确保数据的真实性和可靠性。CliMedBench旨在评估和提升医疗大语言模型在临床决策支持、诊断和治疗建议等方面的能力,解决医疗领域中模型性能评估的不足问题。
arXiv 收录
中国知识产权局专利数据库
该数据集包含了中国知识产权局发布的专利信息,涵盖了专利的申请、授权、转让等详细记录。数据内容包括专利号、申请人、发明人、申请日期、授权日期、专利摘要等。
www.cnipa.gov.cn 收录
MIT Indoor Scenes
室内场景识别是高水平视觉中一个具有挑战性的开放性问题。大多数适用于室外场景的场景识别模型在室内领域的表现都较差。该数据库包含67个室内类别,共15620张图像。图像的数量因类别而异,但每个类别至少有100张图像。所有图像均为jpg格式。此处提供的图像仅用于研究目的。
阿里云天池 收录
中国逐日降水数据集(1961-2022,0.1°/0.25°/0.5°)
CHM_PRE数据集基于中国境内及周边1961至今共2839个站点的日降水观测,在传统的“降水背景场 + 降水比值场”的数据集构建思路上,尝试应用月值降水约束和地形特征校正,并依据中国范围内约4万个高密度站点2015–2019年的日降水量插值后数据进行精度评价。经评估认为,CHM_PRE可以较好的表征降水的空间变异性,其日值时间序列与高密度站点日值降水观测结果之间的相关系数中位数为0.78,均方根误差中位数为8.8 mm/d,KGE值中位数为0.69,与目前常用的降水数据集(CGDPA、CN05.1、CMA V2.0)有很好的一致性。 数据集的时间范围为1961年至今,空间分辨率为0.1°、0.25°和0.5°,经纬度范围为18°N–54°N, 72°E–136°E。
国家青藏高原科学数据中心 收录