Student Score Dataset|教育数据集|成绩分析数据集
收藏数据集概述
项目概述
该项目使用Python分析学生成绩,通过多种Python库对数据集进行分析,以了解影响学生成绩的关键因素。
数据集概述
- 使用的库包括:
- 使用了多种Python方法如
.head
,.describe
,.info
,.shape
来理解数据集结构。
数据清洗
- 删除了列
Unknow: 0
。 - 更新了列名
NrSiblings
为NumberOfSiblings
。 - 使用
missingno
可视化了缺失值并进行了适当处理。 - 使用Z-score和IQR方法发现了并处理了异常值。
数据转换
- 使用
MinMaxScaler
对数据进行了缩放。
探索性数据分析
单变量分析
- 进行了单变量分析:
双变量分析
- 进行了双变量分析,包括条形图、散点图和热图:
- 条形图:
- 散点图:
- 热图:
- 条形图:
多变量分析
- 进行了ANOVA分析和双因素ANOVA分析:
- ANOVA分析:
- 双因素ANOVA分析:
- ANOVA分析:
完整项目
- 完整项目可在以下链接查看:https://colab.research.google.com/drive/1qYWCAABFiBcYjYJfWL_XEyuuUIMBPgkh#scrollTo=vT2nwGBWLXAo

中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录
Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
THUCNews
THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。
github 收录
中国行政区划数据
本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。
github 收录
HazyDet
HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。
arXiv 收录