UniSkill
收藏arXiv2026-03-04 更新2026-03-05 收录
下载链接:
https://huggingface.co/datasets/nurlanm/UniSkill_dataset
下载链接
链接失效反馈官方服务:
资源简介:
UniSkill是由奥博学术大学和哥本哈根大学联合发布的开放数据集,旨在解决教育课程与职业能力匹配的难题。该数据集包含2,192条标注数据(1,096条课程句子-技能对和1,096条课程标题-技能对),数据来源于芬兰五所大学的硕士课程描述与欧洲ESCO技能分类体系的映射。通过预训练模型筛选候选对和人工多轮标注流程构建,重点覆盖系统分析师与管理组织分析师两类职业。该数据集支持教育科技领域的研究,如课程推荐系统开发、技能差距分析等应用场景。
提供机构:
奥博学术大学; 哥本哈根大学; 先锋人工智能中心
创建时间:
2026-03-04
原始信息汇总
UniSkill_dataset 数据集概述
基本信息
- 数据集名称:UniSkill_dataset
- 发布平台:Hugging Face
- 许可证:Apache License 2.0
许可证说明
- 本数据集采用 Apache License 2.0 许可证发布。
搜集汇总
数据集介绍

构建方式
在高等教育与职业技能对接的研究背景下,UniSkill数据集的构建采用了多阶段精细化的方法。研究团队从芬兰五所大学的公开课程描述中提取研究生级别的课程内容,特别聚焦于“课程内容”与“学习目标”部分,并将其拆分为独立的句子。与此同时,从欧洲技能、能力、资格和职业(ESCO)分类法中选取了“系统分析师”与“管理和组织分析师”两大职业群组下的标准化技能。为了高效生成高质量的标注候选对,研究者首先利用预训练的语义相似度模型,在课程标题与技能、课程句子与技能之间进行初步匹配,筛选出高相似度与低相似度的候选组合。随后,由标注专家依据详细的标注指南,对这些候选对进行多轮手动标注与讨论,最终形成了包含2192个标注对的可靠数据集,涵盖了课程标题-技能与课程句子-技能两种粒度。
特点
UniSkill数据集的核心特点在于其开创性地建立了大学课程内容与标准化职业技能之间的直接语义关联。该数据集首次以开源形式提供了从教育视角出发的技能匹配资源,有效弥补了现有研究多集中于招聘广告而忽视教学侧技能的空白。其数据构成兼具多样性与严谨性,不仅包含手动标注的真实课程-技能对,还通过精心设计的提示工程,利用大型语言模型生成了高质量的合成数据以扩充训练集。数据标注在句子和标题两个粒度上展开,并严格区分了技能匹配与非匹配的类别,为模型训练提供了清晰的监督信号。此外,数据集严格遵循ESCO这一权威的欧洲职业技能分类标准,确保了技能定义的规范性与可比性,为跨领域、跨语言的后续研究奠定了坚实基础。
使用方法
该数据集主要服务于教育技术与劳动力市场分析领域的研究与开发。使用者可将其应用于训练和评估语义匹配模型,以构建课程-技能推荐系统或课程体系分析工具。具体而言,研究人员可利用数据集中提供的课程标题、句子与ESCO技能的配对信息,训练如BERT等编码器模型,执行二元分类任务,以判断特定课程内容是否传授了某项给定技能。数据集已划分为训练集、验证集和测试集,并提供了合成数据,支持模型进行有效的监督学习与性能验证。在应用层面,训练好的模型可作为验证器,集成到更广泛的课程推荐或技能差距分析流程中,帮助教育机构优化课程设计,或辅助学习者规划符合职业目标的学业路径。数据及基线模型已在Hugging Face平台开源,便于社区直接使用与复现。
背景与挑战
背景概述
高等教育与劳动力市场需求之间的技能匹配是当前教育技术与人力资源领域的关键议题。UniSkill数据集由芬兰奥博学术大学与丹麦哥本哈根大学的研究团队于2026年共同创建,旨在填补公开数据资源的空白,系统性地将大学课程内容与欧洲技能、能力、资格和职业(ESCO)分类体系中的标准化职业技能进行对齐。该数据集聚焦于研究生层次的课程,涵盖信息系统分析师及管理与组织分析师两大职业群体,通过人工标注与合成数据生成相结合的方式,构建了课程标题-技能与课程句子-技能两个粒度级别的配对。其核心研究问题在于探索如何通过语义对齐技术,有效桥接教育机构传授的技能与劳动力市场实际需求之间的鸿沟,为课程推荐、技能提取及教育政策分析提供了重要的数据基础与基准模型。
当前挑战
UniSkill数据集致力于解决的核心领域挑战是课程与职业技能的精准匹配问题,这要求模型能够深入理解课程描述中隐含或明示的技能语义,并将其映射到标准化的职业能力框架中。构建过程中的主要挑战体现在多个层面:首先,从海量的大学课程描述与ESCO技能条目中筛选并构建高质量的匹配对是一项繁重的任务,需要克服语义模糊性与标注一致性难题;其次,课程内容与技能描述之间存在显著的语境差异,教育文本通常阐述学习目标与概念,而职业技能则强调实际操作与应用,这种表述鸿沟增加了语义对齐的复杂性;此外,数据集的构建需平衡不同职业领域与课程类型的代表性,同时确保合成数据的生成既能有效扩充训练样本,又能保持与真实教育语境的相关性,避免因领域偏移导致模型性能下降。
常用场景
经典使用场景
在高等教育与劳动力市场对接的研究领域,UniSkill数据集为课程与职业技能的语义对齐提供了基准框架。该数据集的核心应用场景在于构建自动化匹配模型,通过分析研究生课程描述(包括课程标题与具体句子)与欧洲技能、能力、资格和职业(ESCO)分类体系中的标准化技能之间的语义关联,评估语言模型在识别课程内容所蕴含职业技能方面的效能。研究者通常利用该数据集训练如BERT等双向编码器模型,以课程标题和句子为联合输入,预测其与特定技能的相关性,从而为课程推荐或技能缺口分析系统提供验证基础。
解决学术问题
UniSkill数据集主要致力于解决教育技术领域长期存在的“技能鸿沟”量化难题。它通过提供首个公开的、系统标注的课程学习目标与职业技能对齐数据,使得研究者能够实证探究课程内容与劳动力市场需求之间的语义匹配度。该数据集有效支持了从教育供给端视角进行的技能提取研究,弥补了以往工作过度聚焦雇主与求职者视角的不足,并为开发无监督的技能匹配方法、评估语义相似性模型在课程-技能对齐任务上的准确性等关键学术问题提供了可靠的数据支撑。
衍生相关工作
UniSkill数据集的发布催生并衔接了多项围绕教育-职业对齐的经典研究工作。其构建方法借鉴并扩展了Decorte等人利用合成数据进行技能提取的思路,但将焦点从招聘广告转向课程描述。该数据集为后续研究如课程技能图谱构建、基于检索增强生成(RAG)的课程技能提取、以及跨语言课程技能匹配模型(如ESCOXLM-R的衍生应用)提供了关键的训练与评估基准。同时,它启发了对合成数据在教育领域适用性的深入探讨,以及如何将课程元数据(标题)与详细内容(句子)结合以提升模型上下文理解能力的研究方向。
以上内容由遇见数据集搜集并总结生成



