Data.csv|足球数据集|球员表现分析数据集
收藏数据集概述
数据集名称
- Football-league-Leadership-board-Data-analytics
数据集内容
- 包含足球球员的多种统计信息,如比赛场次、进球数、预期进球数(xG)、射门次数等。
数据处理步骤
数据加载与探索
- 加载数据集,使用
info()
和head()
检查数据结构,检查重复或缺失值。
数据清洗
- 处理列名,删除重复记录,确保无缺失值。
描述性统计
- 提供数值列(如比赛场次、进球数、射门次数等)的描述性统计。
数据可视化
- 使用
seaborn
和matplotlib
创建直方图和箱线图,展示关键绩效指标的分布和范围。
异常值处理
- 使用IQR方法识别并移除比赛场次、进球数、射门次数等列的异常值。
分类数据映射
- 将League和Country列的数值代码映射到有意义的名称。
独热编码
- 将分类变量转换为虚拟/指示变量。
偏度检查
- 评估数值列的偏度。
配对图
- 使用配对图探索不同绩效指标间的关系。
计数图
- 展示OnTarget变量的计数图。

中国1km分辨率逐月降水量数据集(1901-2023)
该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。
国家青藏高原科学数据中心 收录
flames-and-smoke-datasets
该仓库总结了多个公开的火焰和烟雾数据集,包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述,包括数据来源、图像数量、标注信息等。
github 收录
中国车牌识别数据集(7类,33万张)
这是一个高质量、平衡的中国车牌识别数据集,包含了33万张各类中国车牌的图片。数据集经过精心设计,确保了图像质量的优秀和大部分各类车牌类型的平衡分布。这个数据集非常适合用于训练和评估车牌识别模型。
魔搭社区 收录
Wind Turbine Data
该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。
www.kaggle.com 收录
Materials Project
材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)
OpenDataLab 收录