Turkish University Admissions Dataset
收藏github2025-10-19 更新2025-10-28 收录
下载链接:
https://github.com/izcir/turkish-university-admissions-dataset
下载链接
链接失效反馈官方服务:
资源简介:
这是一个土耳其大学招生数据集,包含2019年至2024年期间从YÖK Atlas和ÖSYM收集的数据,经过清理和规范化处理成关系型CSV表格。数据集涵盖235所大学、733个系名、1,131个学院,总计128,352条记录,包含32,505个独特项目。数据经过系统收集、全面清理、标准化和关系数据建模,为研究人员、开发人员和学生提供干净、可靠且可直接使用的资源。
This is a Turkish university admissions dataset. It compiles data collected from YÖK Atlas and ÖSYM during the period from 2019 to 2024, which has been cleaned, normalized, and formatted into relational CSV tables. The dataset encompasses 235 universities, 733 department names, and 1,131 colleges, with a total of 128,352 records and 32,505 unique programs. Having undergone systematic collection, comprehensive data cleaning, standardization, and relational data modeling, it provides researchers, developers, and students with a clean, reliable, and readily usable resource.
创建时间:
2025-09-28
原始信息汇总
Türkiye Üniversite Bölüm Verileri & İstatistikleri (2019-2024) 数据集概述
数据集基本信息
- 数据来源:YÖK Atlas和ÖSYM官方数据
- 采集工具:YokAPI Python爬虫工具
- 覆盖时间范围:2019-2024年(共6年)
- 总记录数:128,352条
- 唯一专业数量:32,505个(program_code)
- 唯一实体数量:235所大学、733个专业名称、1,131个学院
数据处理流程
数据清洗阶段
- 原始数据通过YokAPI采集
- 详细清洗步骤记录在CLEANING_NOTES.md文件中
- 清洗后数据存储在data/raw/目录
数据标准化阶段
- 使用scripts/目录下的脚本进行数据标准化
- 创建关系型数据结构
- 标准化数据存储在data/processed/目录
- 最终生成all_in_one_denormalized.csv文件
数据文件结构
data/ ├── raw/ # 清洗后但未标准化的数据 ├── processed/ # 标准化后的关系型数据 └── all_in_one_denormalized.csv # 合并的单一分析文件
数据模型架构
核心事实表
- department_stats.csv:记录每个专业每年的基本统计指标
- department_avg_net_stats.csv:记录每个专业每年各科目的平均分数
维度表
- departments_normalized.csv:专业基本信息
- universities_normalized.csv:大学基本信息
- lessons.csv:科目信息
- department_names.csv:专业名称映射
桥接表
- department_tags.csv:管理专业与标签的多对多关系
数据特点
当前数据状态
- 2019-2024年:包含完整统计数据(分数、排名、名额等)
- 2025年:仅包含专业列表,无统计数据
未来扩展计划
- 学生来源地理区域信息
- 学生毕业高中类型和领域
- 学生YKS考试平均分数
- 学生志愿选择倾向分析
使用建议
快速分析
- 推荐使用all_in_one_denormalized.csv文件
- 适合探索性数据分析和快速筛选
深度分析
- 推荐使用processed/目录下的标准化数据
- 适合复杂查询和关系型分析
- 避免数据冗余,提高查询效率
应用场景
- 大学招生趋势分析
- 专业竞争程度评估
- 学生志愿选择指导
- 教育资源分配研究
- 机器学习预测模型开发
相关项目
- 数据集应用于https://sinavizcisi.com平台
- 提供AI驱动的大学专业推荐服务
许可证
- MIT许可证
- 数据来源于公开的YÖK Atlas和ÖSYM资源
- 仅供研究和教育用途
搜集汇总
数据集介绍

构建方式
在高等教育数据科学领域,土耳其大学招生数据集通过系统化方法构建而成。该数据集采用Python编写的YokAPI爬虫工具,从YÖK Atlas和ÖSYM等官方渠道采集2019-2024年间的原始数据,经过严谨的两阶段处理流程:首先对原始数据进行清洗以消除格式错误与缺失值,随后通过规范化处理建立关系型数据结构。这种分层处理机制既保留了数据完整性,又通过维度表与事实表的分离实现了高效存储。
使用方法
针对不同应用场景,数据集提供两种使用范式。对于探索性分析,用户可直接加载反规范化的all_in_one_denormalized.csv文件,利用预关联的字段进行快速筛选与可视化。对于深度研究,建议采用processed目录下的规范化文件,通过程序化关联department_stats事实表与departments_normalized等维度表,构建灵活的数据模型。该方法特别适用于生源分析、趋势预测等需要多表关联的复杂研究课题。
背景与挑战
背景概述
土耳其大学招生数据集由独立研究者Ramazan Izci于2024年创建,依托其开发的YokAPI数据采集工具系统整合了土耳其高等教育委员会官方数据。该数据集聚焦于土耳其高等教育机构2019-2024年间的招生动态,涵盖235所高校的32,505个学位项目,通过标准化处理解决了多源教育数据整合难题。其核心价值在于构建了首个覆盖土耳其全国高校招生全周期的结构化数据库,为教育政策分析、招生趋势预测和学术研究提供了关键基础设施。
当前挑战
在高等教育数据分析领域,该数据集需应对院校更名、专业代码变更等时序不一致性问题,同时需解决跨年度招生指标可比性难题。数据构建过程中面临原始数据分散存储、统计口径差异等挑战,研究者通过开发专用清洗管道和关系型数据模型,实现了对12万条记录的标准化处理,但未来仍需应对新增数据维度融合与实时更新机制构建等技术瓶颈。
常用场景
经典使用场景
在高等教育研究领域,该数据集为分析土耳其大学招生趋势提供了标准化框架。研究者可通过时间序列分析追踪特定专业六年间的录取分数线波动,结合院校类型与地域分布揭示教育资源分配模式。例如通过关联院系标签与录取排名数据,能够系统性评估计算机工程等热门学科在不同类型高校中的竞争态势演变。
解决学术问题
该数据集通过标准化处理解决了高等教育研究中的关键痛点:消除因院校更名、专业代码变更导致的时间序列断裂,整合分散于多平台的招生指标。其规范化数据结构为研究土耳其高等教育公平性、专业冷热周期、区域教育资源均衡等议题提供可靠基准,尤其为量化分析奖学金政策效果与性别均衡趋势奠定数据基础。
实际应用
该数据集已成功应用于智能教育咨询平台sinavizcisi.com,通过机器学习算法为考生提供个性化院校推荐。教育管理部门可借助其标准化指标评估高校扩招政策成效,投资机构则通过分析专业就业热度与录取难度关联性优化教育产业布局。各高校招生办亦能参照历史数据动态调整分省招生计划。
数据集最近研究
最新研究方向
在高等教育数据科学领域,土耳其大学招生数据集正推动多项前沿研究。基于该数据集构建的标准化时间序列,学者们正深入探索高校专业布局与区域经济发展的关联性,通过机器学习模型预测学科竞争态势演变。当前研究热点聚焦于智能教育决策支持系统的开发,结合考生学术能力画像与院校专业特征,构建个性化推荐算法。这些研究不仅为教育政策制定提供量化依据,更通过多维度数据融合分析,揭示高等教育资源分配的内在规律,对优化招生机制具有重要实践意义。
以上内容由遇见数据集搜集并总结生成



