Student Score Dataset|教育数据集|成绩分析数据集
收藏数据集概述
项目概述
该项目使用Python分析学生成绩,通过多种Python库对数据集进行分析,以了解影响学生成绩的关键因素。
数据集概述
- 使用的库包括:
- 使用了多种Python方法如
.head,.describe,.info,.shape来理解数据集结构。
数据清洗
- 删除了列
Unknow: 0。 - 更新了列名
NrSiblings为NumberOfSiblings。 - 使用
missingno可视化了缺失值并进行了适当处理。 - 使用Z-score和IQR方法发现了并处理了异常值。
数据转换
- 使用
MinMaxScaler对数据进行了缩放。
探索性数据分析
单变量分析
- 进行了单变量分析:
双变量分析
- 进行了双变量分析,包括条形图、散点图和热图:
- 条形图:
- 散点图:
- 热图:
- 条形图:
多变量分析
- 进行了ANOVA分析和双因素ANOVA分析:
- ANOVA分析:
- 双因素ANOVA分析:
- ANOVA分析:
完整项目
- 完整项目可在以下链接查看:https://colab.research.google.com/drive/1qYWCAABFiBcYjYJfWL_XEyuuUIMBPgkh#scrollTo=vT2nwGBWLXAo

China Health and Nutrition Survey (CHNS)
China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。
www.cpc.unc.edu 收录
Breast Cancer Dataset
该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。
github 收录
LIDC-IDRI
LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。
OpenDataLab 收录
PCLT20K
PCLT20K数据集是由湖南大学等机构创建的一个大规模PET-CT肺癌肿瘤分割数据集,包含来自605名患者的21,930对PET-CT图像,所有图像都带有高质量的像素级肿瘤区域标注。该数据集旨在促进医学图像分割研究,特别是在PET-CT图像中肺癌肿瘤的分割任务。
arXiv 收录
MedDialog
MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。
github 收录
