Ultra-marathon Running Dataset
收藏github2024-08-02 更新2024-08-16 收录
下载链接:
https://github.com/itmakesnos3nse/Running-analytics
下载链接
链接失效反馈资源简介:
该数据集包含7,461,226条超马拉松比赛记录,涉及1,641,168名独特运动员。数据集包括比赛年份、日期、名称、距离、完赛者数量、运动员成绩、俱乐部、国籍、出生年份、性别、年龄类别和平均速度等信息。
This dataset contains 7,461,226 ultramarathon race records, involving 1,641,168 unique athletes. The dataset includes information such as race year, date, race name, distance, number of finishers, athlete performance, club, nationality, birth year, gender, age category, and average speed.
创建时间:
2024-08-02
原始信息汇总
Running-analytics 数据集概述
数据集描述
该数据集包含7,461,226条超长距离马拉松比赛记录,涉及1,641,168名独特运动员。
包含的列及其数据类型:
- 赛事年份 (int64)
- 赛事日期 (object)
- 赛事名称 (object)
- 赛事距离/长度 (object)
- 完赛人数 (int64)
- 运动员成绩 (object)
- 运动员俱乐部 (object)
- 运动员国家 (object)
- 运动员出生年份 (float64)
- 运动员性别 (object)
- 运动员年龄类别 (object)
- 运动员平均速度 (object)
- 运动员ID (int64)
数据处理说明:
- "赛事名称"列包含国家和地点信息,可提取为新列。
- "赛事日期"列包含季节信息,可在"赛事年份"后进行提取。
- "赛事距离/长度"列描述了比赛类型,包括最流行的距离和长度,以及其他特殊形式(如多日赛)。
已完成的处理:
- 更改了部分数据格式以方便处理。
- 删除了不必要的记录和列。
- 选择了2020年在美国举行的50公里和50英里比赛的样本数据。
样本数据分析问题:
- 50公里比赛中的跑者数量是50英里比赛中的多少倍?
- 两种比赛中男性和女性的比例是多少?
- 男性和女性在每种比赛中的平均速度分布如何?
- 在50英里比赛中,哪些年龄组表现更好(至少20场比赛)?
- 在50英里比赛中,哪些年龄组表现较差(至少10场比赛)?
- 运动员在哪个季节跑得更快?
数据集链接
数据集链接在Jupyter Notebook中提供。
AI搜集汇总
数据集介绍

构建方式
该数据集通过收集和整理全球范围内的超马赛事数据构建而成,涵盖了从1,641,168名独特运动员的7,461,226条记录。数据集的构建过程中,采用了Python编程语言及其库Pandas和Seaborn进行数据处理和分析。原始数据经过格式转换、冗余记录和列的剔除,最终筛选出2020年在美国举行的50公里和50英里赛事的样本数据,以确保数据的质量和实用性。
特点
该数据集具有多维度的特征,包括赛事年份、日期、名称、距离、完赛人数、运动员成绩、俱乐部、国籍、出生年份、性别、年龄类别及平均速度等。特别地,赛事名称和日期列中还蕴含了地理位置和季节信息,可通过进一步处理提取。此外,数据集详细记录了不同距离和时间长度的超马赛事,为研究不同赛事类型和运动员表现提供了丰富的数据支持。
使用方法
使用该数据集时,研究者可以通过Python及其相关库加载数据,进行探索性数据分析。数据集中的各列信息可用于回答诸如不同赛事类型的参赛人数比例、性别分布、平均速度分布、特定年龄组的表现差异以及季节对运动员速度的影响等问题。此外,数据集还提供了运动员ID,便于进行个体运动员的长期表现分析。
背景与挑战
背景概述
超马跑步数据集(Ultra-marathon Running Dataset)是一个涵盖了7,461,226条记录的大型数据集,由1,641,168名独特运动员的超马比赛数据组成。该数据集的创建旨在探索和分析超马跑步的详细信息,包括比赛年份、日期、名称、距离、完赛者数量、运动员成绩、俱乐部、国家、出生年份、性别、年龄类别及平均速度等。通过这些数据,研究人员能够深入了解超马比赛的多样性和复杂性,为运动科学和体育分析领域提供了宝贵的资源。
当前挑战
超马跑步数据集在构建和分析过程中面临多项挑战。首先,数据集的庞大规模和多样性使得数据清洗和预处理变得复杂,特别是处理不同格式的日期和距离信息。其次,数据集中包含的多种比赛类型和特殊模式(如多日赛)增加了分析的难度。此外,如何从数据中提取有意义的季节性信息和运动员表现趋势也是一个重要挑战。最后,数据集的广泛应用需要解决隐私和数据安全问题,确保运动员信息的合理使用和保护。
常用场景
经典使用场景
在超马数据集的广阔领域中,该数据集的经典应用场景主要集中在运动员表现分析与赛事优化上。通过对运动员的年龄、性别、平均速度等关键指标的深入挖掘,研究者能够构建出详尽的运动员表现模型,从而为赛事组织者提供科学的决策依据。此外,该数据集还可用于季节性赛事安排的优化,通过分析不同季节运动员的平均速度变化,赛事组织者可以更合理地安排比赛时间,提升赛事的整体竞争力。
实际应用
在实际应用中,该数据集为超马赛事的组织与管理提供了重要支持。赛事组织者可以利用数据集中的信息,优化赛事安排,提升运动员的参赛体验。例如,通过分析不同年龄段和性别运动员的表现,组织者可以设计更具针对性的赛事项目,吸引更多参赛者。此外,数据集还可用于赛事营销策略的制定,通过分析运动员的国籍和俱乐部信息,赛事组织者可以更精准地进行市场推广,提升赛事的知名度和影响力。
衍生相关工作
该数据集的发布催生了多项相关研究工作,特别是在运动员表现分析与赛事优化领域。研究者利用数据集中的信息,开发了多种运动员表现预测模型,为运动员训练和赛事策略制定提供了科学依据。此外,数据集还推动了季节性赛事安排的研究,帮助赛事组织者理解季节变化对运动员表现的影响,从而优化赛事安排。这些衍生工作不仅丰富了超马赛事的理论研究,也为实际赛事组织提供了有力支持。
以上内容由AI搜集并总结生成



