Model_Trees_Full_Dataset

github2024-01-21 更新2024-05-31 收录

下载链接：

https://github.com/liuyejia/Model_Trees_Full_Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了从1998年到2008年（2003年除外）所有获得NHL合同的球员的数据，数据来源于NHL官网、Eliteprospects和Draft Analyst。数据集详细记录了球员的各项统计数据，包括常规赛和季后赛的表现，以及球员的年龄、国籍、位置等信息。

This dataset encompasses data on all players who secured NHL contracts from 1998 to 2008 (excluding 2003), sourced from the NHL official website, Eliteprospects, and Draft Analyst. It meticulously documents various statistical metrics of the players, including their performances in both regular seasons and playoffs, along with details such as age, nationality, and position.

创建时间：

2017-09-20

原始信息汇总

数据集概述

数据集名称

Model_Trees_Full_Dataset: NHL Draft Data

数据来源

在线来源：数据爬取自NHL官网、Eliteprospects和Draft Analyst，涵盖1998至2008年（排除2003年因CSS_rank数据缺失过多）所有获得NHL合同的选秀球员。
本地来源：数据库存储于cs-oschulte-01.cs.sfu.ca，包括NHL赛季统计、选秀统计等。

数据集内容

原始数据：包括NHL赛季统计和选秀统计的合并数据，以及经过预处理和标准化的数据。
预处理步骤：
- 目标类标签设定为7年总出场次数（sum_7yr_GP）大于0。
- 缺失值处理，如将季后赛出场次数（po_GP）的缺失值转换为0。
- 国家分类，将欧洲国家统一归类为EURO。
- CSS_rank缺失值处理，使用当年最大排名加1填充。
标准化步骤：数据标准化处理，确保各特征值在同一量级。

数据集字段

id：NHL球员的nhl.com ID或Eliteprospects.com ID。
Draft Age：选秀年份的年龄。
Country_group：国籍，分为CAN、USA、EURO。
Position：选秀年份的位置，如L、R、C、D。
Overall：NHL选秀总顺位。
CSS_rank：中央球探服务在选秀年的排名。
rs_GP, rs_G, rs_A, rs_P, rs_PIM, rs_PlusMinus：常规赛各项统计。
po_GP, po_G, po_A, po_P, po_PIM, po_PlusMinus：季后赛各项统计。
sum_7yr_GP, sum_7yr_TOI, GP_7yr_greater_than_0：球员前7年NHL生涯的统计。

数据集文件

原始数据：raw_datasets.csv
预处理数据：preprocessed_datasets.csv
标准化数据：normalized_datasets.csv

搜集汇总

数据集介绍

构建方式

Model_Trees_Full_Dataset的构建过程基于多源数据的整合与处理。数据集主要来源于NHL、Eliteprospects和Draft Analyst等在线平台，涵盖了1998年至2008年间（排除2003年）所有获得NHL合同的球员数据。本地数据存储于cs-oschulte-01.cs.sfu.ca服务器，包括NHL赛季统计数据、选秀统计数据以及两者的合并表。通过预处理步骤，如处理缺失值、分类国家信息等，生成了预处理后的数据集。最终，数据经过标准化处理，确保各特征值在同一范围内，为模型树学习提供了输入。

特点

Model_Trees_Full_Dataset的特点在于其全面性和精细化的数据处理。数据集不仅包含了球员在选秀年的基本信息，如年龄、国籍、位置等，还详细记录了球员在常规赛和季后赛中的表现数据，如比赛场次、进球、助攻等。此外，数据集还提供了球员在NHL职业生涯前七年的累计数据，如总比赛场次和总上场时间。通过对数据的预处理和标准化，数据集为研究球员职业生涯发展提供了高质量的输入。

使用方法

Model_Trees_Full_Dataset的使用方法主要围绕模型树学习展开。研究人员可以从GitHub获取预处理后的数据集和标准化后的数据集，直接用于模型训练和预测。数据集中的字段如Draft Age、Country_group、Position等可用于特征工程，而sum_7yr_GP等字段则作为目标变量。通过分析这些数据，研究人员可以探索球员职业生涯的早期表现与其长期发展之间的关系，为NHL选秀和球员评估提供数据支持。

背景与挑战

背景概述

Model_Trees_Full_Dataset数据集由Simon Fraser University的研究团队于2018年创建，主要聚焦于NHL（国家冰球联盟）选秀数据的分析与建模。该数据集涵盖了1998年至2008年间（不包括2003年）所有获得NHL合同的球员数据，数据来源包括NHL官方网站、Eliteprospects和Draft Analyst等多个在线平台。数据集的核心研究问题在于通过选秀数据预测球员在NHL职业生涯前七年的表现，特别是其是否能够在NHL中持续参赛。这一研究为冰球运动中的选秀策略和球员发展提供了重要的数据支持，推动了体育数据分析领域的发展。

当前挑战

Model_Trees_Full_Dataset在构建与应用过程中面临多重挑战。首先，数据缺失问题尤为突出，例如2003年的CSS_rank数据大量缺失，导致该年份被排除在数据集之外。其次，数据预处理过程中需要处理大量空值，例如将未参加季后赛的球员的季后赛统计数据统一赋值为0，并对CSS_rank的空值进行特殊处理。此外，数据标准化过程中需对不同选秀年份的球员进行分组处理，以确保数据在同一范围内可比。这些挑战不仅增加了数据集构建的复杂性，也对后续的机器学习模型训练提出了更高的要求。

常用场景

经典使用场景

在冰球运动分析领域，Model_Trees_Full_Dataset数据集为研究者提供了一个全面的视角，用于评估NHL选秀球员的职业发展轨迹。该数据集整合了1998年至2008年间NHL选秀球员的详细统计数据，包括常规赛和季后赛的表现、选秀排名以及职业生涯前七年的比赛数据。通过这一数据集，研究者能够深入分析选秀球员的早期表现与其长期职业成就之间的关联，为选秀策略的优化提供数据支持。

解决学术问题

Model_Trees_Full_Dataset数据集解决了冰球运动研究中关于选秀球员职业发展预测的难题。通过提供详细的球员统计数据，研究者能够构建模型来预测选秀球员的长期职业表现，从而为球队的选秀决策提供科学依据。此外，该数据集还帮助研究者探讨了不同国家、位置和选秀排名对球员职业发展的影响，为冰球运动的人才培养和选秀策略提供了新的见解。

衍生相关工作

Model_Trees_Full_Dataset数据集衍生了一系列经典的研究工作，特别是在冰球运动分析和选秀预测领域。基于该数据集，研究者开发了多种机器学习模型，用于预测选秀球员的职业发展轨迹。这些模型不仅为球队的选秀决策提供了科学依据，还为冰球运动的人才培养和选秀策略提供了新的思路。此外，该数据集还被用于探讨不同国家、位置和选秀排名对球员职业发展的影响，为冰球运动的研究提供了丰富的数据资源。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集