Gradcafe-Computer-Science-Dataset

github2022-11-09 更新2024-05-31 收录

下载链接：

https://github.com/karunk/Gradcafe-Computer-Science-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

包含2014年至今Gradcafe上的计算机科学研究生项目数据，数据集详细记录了大学名称、专业、学期、学位类型、GRE成绩、录取决定、入学年份、本科GPA、数据添加日期、结果公布日期、申请者状态及评论等信息。

This dataset encompasses data on graduate programs in computer science from Gradcafe, spanning from 2014 to the present. It meticulously records university names, majors, semesters, degree types, GRE scores, admission decisions, enrollment years, undergraduate GPAs, data addition dates, result announcement dates, applicant statuses, and comments.

创建时间：

2019-08-25

原始信息汇总

数据集概述

数据集名称

GRADCAFE DATA (2014 - Present)

数据集链接

GRADCAFE DATA

数据集内容

数据集包含以下字段：

列名	描述
university	大学名称（信息可能不准确）
major	所追求的专业（信息可能不准确）
season	学期（秋季/春季）
degree	将获得的学位（硕士/博士）
gre_quant	GRE 定量分数（如有提供）
gre_verbal	GRE 语言分数（如有提供）
gre_awa	GRE 分析写作分数（如有提供）
decision	录取结果（录取 / 拒绝 / 其他）
term_year	录取年份
undergrad_gpa	本科GPA（如有提供）
date_added	数据录入Gradcafe的日期
date_of_result	结果公布日期
applicant_status	申请者状态（国际非美国学位申请者，国际美国学位申请者或美国本土申请者）
comment	作者撰写的评论

数据集生成脚本

数据集详情页面中包含用于生成此数据集的脚本，用户可以通过克隆仓库并运行python scrape.py来使用该脚本。

搜集汇总

数据集介绍

构建方式

Gradcafe-Computer-Science-Dataset的构建基于对Gradcafe论坛上2014年至今的计算机科学研究生申请数据的爬取与整理。通过自定义的Python脚本，从Gradcafe网站抓取了包括大学名称、专业、申请季节、学位类型、GRE成绩、录取结果、申请年份、本科GPA等关键字段的数据。脚本配置灵活，用户可通过修改`config.yaml`文件中的`COURSE`和`PAGE_LIMIT`参数，调整爬取范围和深度。

特点

该数据集涵盖了计算机科学领域研究生申请的丰富信息，包括申请者的背景、成绩、录取结果等。数据字段多样且详细，如GRE各部分成绩、本科GPA、申请者身份等，为研究提供了多维度的分析基础。此外，数据还包含了申请者的评论，进一步丰富了数据的深度与广度。然而，部分字段存在噪声，需在分析时进行清洗与预处理。

使用方法

使用该数据集时，首先需克隆GitHub仓库并安装所需的Python依赖库，如`pyyaml`和`beautifulsoup4`。通过修改`config.yaml`文件中的参数，用户可自定义爬取范围。运行`python scrape.py`命令后，脚本将自动爬取并生成数据集。生成的数据可直接用于分析研究生录取趋势、申请者背景与录取结果的关系等研究，也可作为机器学习模型的训练数据。

背景与挑战

背景概述

Gradcafe-Computer-Science-Dataset 数据集自2014年起由研究人员和机构持续收集，主要聚焦于计算机科学领域的研究生申请数据。该数据集涵盖了申请者的GRE成绩、本科GPA、申请结果等关键信息，旨在为学术界和申请者提供宝贵的参考资源。通过分析这些数据，研究人员能够深入探讨影响研究生录取结果的因素，从而为申请策略和招生政策的优化提供科学依据。该数据集在计算机科学教育研究领域具有重要影响力，为相关研究提供了丰富的数据支持。

当前挑战

Gradcafe-Computer-Science-Dataset 数据集在解决研究生录取预测问题时面临多重挑战。首先，数据中的噪声问题较为突出，例如大学名称和专业信息的不一致性，可能导致分析结果的偏差。其次，部分关键字段（如GRE成绩和本科GPA）存在缺失值，增加了数据清洗和预处理的难度。此外，数据的时间跨度较大，申请政策和录取标准可能随时间变化，这对模型的泛化能力提出了更高要求。在构建过程中，数据采集依赖于网络爬虫技术，如何高效且合规地获取数据，同时确保数据的完整性和准确性，是构建团队面临的主要技术挑战。

常用场景

经典使用场景

Gradcafe-Computer-Science-Dataset数据集广泛应用于高等教育研究领域，特别是在计算机科学专业的招生趋势分析中。研究者利用该数据集中的GRE成绩、GPA、录取结果等信息，深入探讨不同学术背景的申请者在录取过程中的表现差异，以及各大学录取标准的潜在规律。

衍生相关工作

基于Gradcafe-Computer-Science-Dataset，许多经典研究工作得以展开。例如，研究者开发了预测录取结果的机器学习模型，利用GRE成绩、GPA等特征预测申请者的录取概率。此外，该数据集还被用于研究不同国家申请者的录取差异，为国际教育政策的制定提供了科学依据。

数据集最近研究