five

Course-Job Fit

收藏
github2025-03-25 更新2025-04-15 收录
下载链接:
https://github.com/Damrl-lab/Course-Job-Fit
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个计算领域的工作描述和课程信息,具体包括网络安全(CS)、软件工程(SWE)、数据科学(DS)、信息技术(IT)和项目管理(PM)等领域的工作描述,以及课程信息的Excel格式和原始PDF教学大纲。

This dataset encompasses job descriptions and course information spanning multiple computing-related disciplines. Specifically, it includes job descriptions for fields such as Cybersecurity (CS), Software Engineering (SWE), Data Science (DS), Information Technology (IT), and Project Management (PM), alongside course materials provided in Excel format and the original PDF syllabi.
创建时间:
2025-03-24
原始信息汇总

数据集概述

数据集基本信息

  • 数据集名称:Course-Job Fit Repository
  • 研究主题:计算课程与就业机会之间的上下文关系
  • 相关论文:"Course-Job Fit: Understanding the Contextual Relationship Between Computing Courses and Employment Opportunities" (Kverne et al., 2025)

数据集内容

工作描述数据集

  • 位置:Cleaned Datasets (100k jobs)
  • 领域分类:
    • 网络安全 (CS)
    • 软件工程 (SWE)
    • 数据科学 (DS)
    • 信息技术 (IT)
    • 项目管理 (PM)

课程信息数据集

  • 位置:
    • Cleaned Datasets (Excel格式)
    • all_courses, core_courses, elective_courses (原始PDF教学大纲)

数据处理与分析工具

数据收集模块

  • 位置:Fetch Jobs
  • 功能:自动化工作描述收集脚本

转换模型模块

  • 位置:
    • BGE_similarities
    • e5_similarities
    • SBERT_similarities
    • GTE_similarities
    • MPNet_similarities
  • 功能:文本到嵌入转换工具

分析与课程排名模块

  • 位置:
    • Compare Models (各领域课程排名)
    • analyze_top_bottom_courses (详细课程分析)
      • 关键词提取
      • 核心课程与选修课程比较
      • 与高薪酬就业机会的相关性分析

引用信息

Christopher L. Kverne, Federico Monteverdi, Agoritsa Polyzou, Christine Lisetti, Janki Bhimani “Course-Job Fit: Understanding the Contextual Relationship Between Computing Courses and Employment Opportunities”

搜集汇总
数据集介绍
main_image_url
构建方式
在计算教育领域,Course-Job Fit数据集通过系统化采集与整理构建而成。研究团队从五大计算领域(网络安全、软件工程、数据科学、信息技术、项目管理)收集了10万份职位描述,并配套整理了相关课程信息。原始数据包含PDF格式的教学大纲和Excel结构化课程数据,通过自动化脚本实现职位描述的标准化采集,采用多种Transformer模型(BGE、e5、SBERT等)进行语义向量转换,构建了课程与职位间的多维关联体系。
使用方法
研究者可通过分层目录快速定位所需资源,原始教学大纲存放在all_courses目录,清洗数据集中于Cleaned Datasets。分析模块提供从基础统计到深度学习的完整工具链,Compare Models包含各领域课程排名,analyze_top_bottom_courses模块支持薪酬关联分析。使用多种预训练模型生成的语义向量时,建议先通过相似度比对模块评估不同模型在特定领域的表现,再开展课程-职位匹配度研究。
背景与挑战
背景概述
在数字化时代背景下,高等教育与就业市场的衔接问题日益凸显。由Kverne等学者于2025年创建的Course-Job Fit数据集,致力于解析计算科学类课程与职业需求之间的关联性。该数据集由多所研究机构联合开发,涵盖网络安全、软件工程、数据科学等五大计算领域,包含10万条经过清洗的职位描述及配套课程大纲。通过将传统教学大纲与前沿就业需求进行语义映射,该项目为教育路径优化和职业能力评估提供了量化依据,对计算机教育领域的课程改革产生了深远影响。
当前挑战
构建过程中面临的核心挑战在于跨模态数据的对齐:职位描述的非结构化文本需与课程大纲的体系化知识进行语义匹配,这要求开发多维度相似度评估框架。领域问题方面,计算学科快速迭代的特性导致课程内容与岗位需求存在时滞,数据集需持续更新以保持时效性。技术实现上,不同嵌入模型(BGE、SBERT等)对专业术语的敏感度差异,以及核心课程与选修课程对职业发展的差异化贡献度量化,均为研究带来显著复杂度。
常用场景
经典使用场景
在教育技术与职业发展的交叉领域,Course-Job Fit数据集通过系统化整理计算领域课程内容与职位描述之间的语义关联,为高等教育课程设置与市场需求匹配度研究提供了量化分析基础。该数据集最典型的应用场景体现在利用Transformer模型计算课程大纲与不同计算领域(如网络安全、数据科学)职位要求的语义相似度,进而构建课程-职业适配性评估体系。
解决学术问题
该数据集有效解决了教育数据挖掘领域三个核心问题:高等教育课程内容与劳动力市场需求的结构性脱节量化分析、基于语义相似度的跨领域课程价值评估框架构建,以及核心课程与选修课程对职业发展的差异化影响研究。通过百万级职位描述与课程大纲的多维度匹配,为教育政策制定者提供了数据驱动的决策依据。
实际应用
在实践层面,高校就业指导中心可依据该数据集的适配性排名优化课程推荐系统,帮助学生在选课时更精准地对接目标行业需求。企业HR部门则能借助课程-职位匹配模型,建立基于教育背景的人才筛选机制。教育科技公司已将其应用于职业规划平台的算法优化,显著提升了课程与职业路径匹配的个性化程度。
数据集最近研究
最新研究方向
在计算教育领域,Course-Job Fit数据集为探索课程内容与就业市场需求之间的关联性提供了重要支撑。当前研究聚焦于运用Transformer模型进行语义分析,通过BGE、SBERT等先进嵌入技术量化课程描述与职位要求的匹配度,揭示了不同计算领域(如网络安全、数据科学)的核心能力需求差异。热点方向包括基于课程排名的高薪就业相关性分析,以及核心课程与选修课程对职业发展的差异化影响。该数据集推动了教育机构优化课程体系,同时为求职者提供了精准的能力提升路径参考,对弥合学术界与产业界鸿沟具有显著意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作