five

ESCO-PrereqSkill

收藏
arXiv2025-07-24 更新2025-08-13 收录
下载链接:
https://github.com/lengocluyen/ESCO-PrereqSkill
下载链接
链接失效反馈
官方服务:
资源简介:
ESCO-PrereqSkill数据集是基于ESCO分类法构建的基准数据集,包含3,196个技能及其专家定义的先决条件链接。该数据集用于评估大型语言模型(LLMs)在零样本设置中预测先决技能的能力,数据集大小为3,196个技能,每个技能都有一个或多个专家定义的先决技能列表。数据集的创建过程是从ESCO分类法中提取技能及其先决条件关系,旨在支持个性化学习、智能辅导和基于技能的推荐系统等应用领域。

The ESCO-PrereqSkill dataset is a benchmark dataset built upon the ESCO taxonomy, encompassing 3,196 skills and their expert-defined prerequisite links. It is designed to evaluate the performance of Large Language Models (LLMs) in predicting prerequisite skills under a zero-shot setting, with each of the 3,196 skills associated with one or more expert-curated prerequisite skill lists. The dataset was developed by extracting skill-prerequisite relationship pairs from the ESCO taxonomy, and it aims to support applications including personalized learning, intelligent tutoring systems, and skill-based recommendation systems.
提供机构:
Universit´e de Technologie de Compi`egne, CNRS, Heudiasyc (Heuristics and Diagnosis of Complex Systems), CS 60319 - 60203 Compi`egne Cedex, France. Gamaizer, 93340 Le Raincy, France.
创建时间:
2025-07-24
搜集汇总
数据集介绍
main_image_url
构建方式
ESCO-PrereqSkill数据集基于欧洲技能、能力、资格和职业(ESCO)分类法构建,该分类法是一个多语言、专家维护的框架,明确定义了技能之间的先决关系。数据集的构建过程聚焦于ESCO的“技能/能力”支柱,通过三个严格标准筛选目标技能:清晰的技能名称、详细的文本描述以及专家定义的先决技能链接。最终数据集包含3,196个技能实例,每个实例均标注了技能ID、名称、描述及其对应的先决技能列表,确保了数据的权威性和结构性。
特点
ESCO-PrereqSkill数据集的核心特点在于其专家验证的先决关系,为大规模语言模型(LLMs)的零样本预测提供了可靠的基准。数据集覆盖广泛的技能领域,每个技能节点通过自然语言描述和结构化关系双重表征,支持语义相似性和词汇匹配的多维度评估。此外,数据集的构建强调细粒度教育概念的层次化关联,为个性化学习、课程设计和技能差距分析等应用场景提供了丰富的语义基础。
使用方法
该数据集的使用方法聚焦于零样本预测任务的评估。研究者可通过标准化提示模板(包含技能名称和描述)输入LLMs,生成预测的先决技能列表,随后与专家定义的参考集进行对比。评估采用语义相似度(Sentence-BERT嵌入的余弦相似度)和BERTScore(基于上下文嵌入的精确率、召回率和F1值)双重指标,确保对模型输出的语义一致性和词汇覆盖进行全面分析。数据集还支持推理效率测试,为实际教育系统中的实时应用提供延迟基准。
背景与挑战
背景概述
ESCO-PrereqSkill数据集由Ngoc Luyen Le等人于2025年基于欧洲技能、能力、资格和职业(ESCO)分类框架构建,旨在评估大型语言模型(LLMs)在零样本设置下预测先决技能的能力。该数据集包含3,196项技能及其专家定义的先决关系,为教育技术领域提供了结构化、专家验证的评估基准。其核心研究问题聚焦于探索LLMs是否能够在不进行任务特定微调的情况下,仅通过自然语言描述推断技能间的先决关系,从而支持个性化学习、智能辅导和基于技能的推荐系统等应用。
当前挑战
ESCO-PrereqSkill数据集面临的挑战主要包括两方面:其一,在领域问题层面,传统先决技能识别依赖专家手工构建,成本高且难以扩展,而LLMs的零样本预测需解决语义推理的准确性与专家定义的先决关系之间的对齐问题;其二,在构建过程中,需确保从ESCO分类中提取的技能描述和先决关系的完整性与一致性,同时设计标准化的提示策略以评估不同LLMs的性能。此外,评估指标需兼顾语义相似性和词汇匹配,以全面衡量模型输出的质量。
常用场景
经典使用场景
ESCO-PrereqSkill数据集在教育和技能建模领域具有广泛的应用价值,尤其在个性化学习和智能辅导系统中扮演关键角色。该数据集通过提供专家定义的技能先决关系,为研究人员和开发者提供了一个可靠的基准,用于评估和优化大型语言模型(LLMs)在零样本设置下的技能预测能力。经典使用场景包括课程设计、自适应学习路径生成以及技能差距分析。
解决学术问题
ESCO-PrereqSkill数据集解决了教育和技能建模中的多个核心学术问题。首先,它通过提供专家验证的技能先决关系,填补了零样本预测任务中缺乏可靠基准的空白。其次,该数据集支持对LLMs在语义推理和结构化知识提取方面的能力进行系统评估,从而推动了教育领域的人工智能研究。此外,它还促进了跨学科研究,如认知科学和计算教育学的融合,为理解人类学习路径的建模提供了新的视角。
衍生相关工作
ESCO-PrereqSkill数据集已经催生了一系列相关研究和技术创新。例如,基于该数据集的研究探索了如何将LLMs与结构化知识图谱相结合,以提高技能预测的准确性和可解释性。此外,一些工作聚焦于开发混合模型,将专家知识嵌入到生成式AI中,从而在保持模型灵活性的同时增强其可靠性。这些衍生研究不仅扩展了数据集的应用范围,还为教育AI领域的未来发展提供了重要参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作