FIFA19

github2020-08-08 更新2024-05-31 收录

下载链接：

https://github.com/bsathyamur/FIFA_dataset_regression_model_usingR

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了FIFA 2019球员的详细信息，包括技能、薪资和身体特征等，用于构建预测球员总体评分的模型。

This dataset contains detailed information about FIFA 2019 players, including skills, salaries, and physical characteristics, used to build models for predicting the overall ratings of players.

创建时间：

2020-08-07

原始信息汇总

数据集概述

数据集来源

数据集来自Kaggle网站，具体链接为：https://www.kaggle.com/karangadiya/fifa19

数据集内容

观测数量：约18,000+
预测变量数量：46
主要变量描述：
- Overall：球员整体评分
- Age：球员年龄
- heightInch：球员身高（英寸）
- WeightLbs：球员体重（磅）
- value_k_eu：球员价值（千欧元）
- wage_k_eu：球员薪资（千欧元）
- rel_tot_value_k：球员解约金（千欧元）
- PreferredFoot：球员惯用脚（因子变量，用作虚拟变量）
- WeakFoot：球员弱脚技能
- Position：球员位置（因子变量）
- JerseyNumber：球员球衣号码

数据集应用

目标是通过球员的技能数据预测FIFA球员的整体评分。

数据处理与模型构建

数据分割

训练集：15%的数据
测试集：85%的数据

模型构建过程

初始模型（MODEL1）：包含所有变量及年龄、身高、体重与其他变量的交互作用。
- 模型评估：拒绝原假设，选择更复杂的模型。
- 问题：模型残差与正态性不符。
简化模型（MODEL2）：使用方差膨胀因子（VIF）筛选变量。
- 模型评估：ANOVA测试显示模型显著。
- 问题：模型残差与正态性仍不符。
优化模型（MODEL-2）：移除异常值和影响点。
- 数据处理：移除2674个异常值。
- 模型评估：模型残差与正态性改善。
最终模型（MODEL AIC）：基于Akaike信息准则（AIC）和贝叶斯信息准则（BIC）选择最佳预测变量。
- 模型评估：满足高调整R²、正态性和低RMSE LOOCV。

模型验证

验证方法：使用85%的测试数据进行验证。
验证结果：模型AIC在测试集上表现出最低的RMSE差异。

结论

尽管模型未完全满足常数方差的假设，但已达到高调整R²、正态性和低RMSE LOOCV的标准。
模型通过移除共线性变量和异常值，提高了预测准确性。
最终模型被认为是一个有效的预测模型，适用于足球分析领域。

搜集汇总

数据集介绍

构建方式

FIFA19数据集的构建基于Kaggle平台提供的公开数据，涵盖了2019年FIFA游戏中超过18,000名球员的详细信息。数据集中包含了46个预测变量，涵盖了球员的技能、年龄、身高、体重、薪资等多维度信息。数据采集过程得益于近年来数据收集技术的进步，使得体育分析得以深入发展。数据集通过清理和处理，剔除了缺失值、异常值和共线性较高的变量，确保了数据的质量和可用性。

特点

FIFA19数据集的特点在于其丰富的变量和多样化的球员信息。数据集不仅包含了球员的基本属性如年龄、身高、体重，还涵盖了技能评分、薪资、转会价值等关键指标。此外，数据集还提供了球员的偏好脚、位置等分类变量，为多维度分析提供了可能。数据集的规模庞大，涵盖了全球范围内的球员信息，使其成为研究足球运动员表现和预测球员评分的理想选择。

使用方法

FIFA19数据集的使用方法主要包括数据预处理、模型构建和验证。首先，数据集被划分为训练集和测试集，其中15%的数据用于训练，85%用于测试。通过方差膨胀因子（VIF）和AIC/BIC准则，筛选出最佳预测变量，并构建回归模型。模型通过BP检验和Shapiro-Wilk检验进行方差和正态性评估，最终通过LOOCV-RMSE进行模型验证。数据集适用于足球运动员评分预测、球员表现分析等研究领域。

背景与挑战

背景概述

FIFA19数据集源于Kaggle平台，旨在通过分析FIFA 2019游戏中球员的技能数据、薪资及身体特征（如年龄、身高、体重等），构建一个能够预测球员综合评分的模型。随着FIFA游戏在全球范围内的广泛流行，尤其是在美国，基于球员技能集预测其评分的研究显得尤为有趣且具有实际应用价值。该数据集包含约18,000条观测数据和46个预测变量，旨在通过复杂的模型提供准确的预测。近年来，数据收集技术的进步使得体育分析得以迅速发展，推动了游戏模拟、球迷获取与营销策略优化等领域的创新。FIFA19数据集的创建不仅为足球分析提供了丰富的数据资源，也为相关领域的研究提供了新的视角。

当前挑战

FIFA19数据集在构建和应用过程中面临多重挑战。首先，数据集中包含大量噪声数据，导致模型的方差稳定性难以满足，尽管通过移除共线性变量和异常值点进行了优化，但噪声数据仍对模型的方差假设构成挑战。其次，数据集的多样性和复杂性使得模型的构建过程复杂化，尤其是在处理多变量交互作用时，模型的拟合与验证过程需要精细的统计方法支持。此外，尽管通过AIC和BIC等方法筛选出了最佳模型，但模型的预测性能仍需进一步验证，尤其是在面对新数据时的泛化能力。这些挑战不仅反映了数据科学在体育分析中的应用难度，也凸显了在复杂数据环境下构建高效预测模型的必要性。

常用场景

经典使用场景

FIFA19数据集在足球分析领域具有广泛的应用，尤其是在预测球员整体评分方面。通过分析球员的技能、年龄、身高、体重等物理因素，研究者能够构建复杂的回归模型，预测球员的综合能力。这一数据集的使用场景不仅限于学术研究，还被广泛应用于职业足球俱乐部的球员选拔和训练策略制定中。

衍生相关工作

FIFA19数据集衍生了许多经典的研究工作，例如基于机器学习的球员评分预测模型和足球比赛模拟系统。这些研究不仅扩展了数据集的应用范围，还为足球分析领域提供了新的方法论。此外，一些研究还结合了经济学理论，探讨球员薪资与市场价值之间的关系，进一步丰富了数据集的研究维度。

数据集最近研究