five

jjzha/skillspan

收藏
Hugging Face2023-09-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/jjzha/skillspan
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: cc-by-4.0 language: en --- This is the SkillSpan dataset created by: ``` @inproceedings{zhang-etal-2022-skillspan, title = "{S}kill{S}pan: Hard and Soft Skill Extraction from {E}nglish Job Postings", author = "Zhang, Mike and Jensen, Kristian and Sonniks, Sif and Plank, Barbara", booktitle = "Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies", month = jul, year = "2022", address = "Seattle, United States", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2022.naacl-main.366", doi = "10.18653/v1/2022.naacl-main.366", pages = "4962--4984" } ``` There are document delimiters indicated by `idx`. Number of samples (sentences): - train: 4800 - dev: 3174 - test: 3569 Sources: - Stackoverflow (tech) - STAR (house) Type of tags: - Generic BIO tags with keys `tags_skill` and `tags_knowledge` Sample: ``` { "idx": 53, "tokens": ["Drive", "our", "IT", "compliance", "agenda", "and", "develop", "our", "processes"], "tags_skill": ["B", "I", "I", "I", "I", "O", "B", "I", "I"], "tags_knowledge": ["O", "O", "O", "O", "O", "O", "O", "O", "O"], "source": "house" } ```

许可证:CC BY 4.0 语言:英语 本数据集为SkillSpan数据集,由以下作者创建: @inproceedings{zhang-etal-2022-skillspan, title = "SkillSpan:从英语招聘启事中提取硬技能与软技能", author = "Zhang, Mike and Jensen, Kristian and Sonniks, Sif and Plank, Barbara", booktitle = "2022年计算语言学协会北美分会会议:人类语言技术研讨会论文集", month = "7月", year = "2022", address = "美国西雅图", publisher = "计算语言学协会(Association for Computational Linguistics)", url = "https://aclanthology.org/2022.naacl-main.366", doi = "10.18653/v1/2022.naacl-main.366", pages = "4962--4984" } 数据集采用`idx`作为文档分隔标记。 样本(句子)数量分布如下: - 训练集:4800 - 开发集:3174 - 测试集:3569 数据来源: - Stackoverflow(科技领域) - STAR(房产领域) 标签类型:采用带有`tags_skill`与`tags_knowledge`键的通用BIO标注标签(BIO tags)。 样本示例: { "idx": 53, "tokens": ["Drive", "our", "IT", "compliance", "agenda", "and", "develop", "our", "processes"], "tags_skill": ["B", "I", "I", "I", "I", "O", "B", "I", "I"], "tags_knowledge": ["O", "O", "O", "O", "O", "O", "O", "O", "O"], "source": "house" }
提供机构:
jjzha
原始信息汇总

SkillSpan 数据集概述

数据集创建信息

  • 标题: SkillSpan: Hard and Soft Skill Extraction from English Job Postings
  • 作者: Mike Zhang, Kristian Jensen, Sif Sonniks, Barbara Plank
  • 会议: Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies
  • 时间: 2022年7月
  • 地点: Seattle, United States
  • 出版商: Association for Computational Linguistics

数据集结构

  • 样本数量:
    • 训练集: 4800
    • 开发集: 3174
    • 测试集: 3569
  • 来源:
    • Stackoverflow (tech)
    • STAR (house)
  • 标签类型:
    • 通用BIO标签,包括 tags_skilltags_knowledge

示例样本

json { "idx": 53, "tokens": ["Drive", "our", "IT", "compliance", "agenda", "and", "develop", "our", "processes"], "tags_skill": ["B", "I", "I", "I", "I", "O", "B", "I", "I"], "tags_knowledge": ["O", "O", "O", "O", "O", "O", "O", "O", "O"], "source": "house" }

搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言处理领域,技能抽取任务对理解职业市场动态至关重要。SkillSpan数据集基于StackOverflow的技术论坛和STAR招聘平台中的英文职位描述构建,通过人工标注将文本中的硬技能与软技能实体进行识别与分类。标注过程采用序列标注方法,为每个句子中的词汇分配BIO标签,分别标记技能与知识领域实体,确保了数据在语义层面的精确性。数据划分遵循机器学习常规,包含训练集、开发集与测试集,为模型训练与评估提供了结构化基础。
特点
该数据集在技能抽取研究中具有显著特色,其标注体系不仅涵盖硬技能,还扩展至软技能与知识领域,反映了职业需求的多维性。数据来源融合了技术社区与招聘平台,增强了样本的多样性与代表性,适用于跨领域分析。标注格式采用标准BIO框架,便于与主流命名实体识别模型兼容,同时提供清晰的文档索引与来源标识,支持细粒度的数据追溯与实验设计。
使用方法
SkillSpan数据集适用于自然语言处理中的序列标注任务,特别是技能与知识实体的抽取研究。使用者可加载预处理后的JSON格式数据,利用标注的BIO标签训练或评估命名实体识别模型,如基于BERT的架构。开发集可用于超参数调优,测试集则用于最终性能验证。数据中的来源字段支持按领域进行子集分析,例如比较技术与非技术职位中的技能分布,从而深化对职业文本语义的理解。
背景与挑战
背景概述
在自然语言处理领域,职业技能的自动识别对于优化招聘流程、分析劳动力市场需求具有重要价值。SkillSpan数据集由Mike Zhang、Kristian Jensen、Sif Sonniks和Barbara Plank等研究人员于2022年创建,并发表于北美计算语言学协会年会。该数据集专注于从英文招聘广告中提取硬技能和软技能,旨在解决职业文本中细粒度技能实体识别的研究问题。通过整合Stack Overflow的技术岗位数据和STAR的家庭服务岗位数据,SkillSpan为技能抽取任务提供了高质量的标注资源,推动了人力资源智能化分析的发展。
当前挑战
SkillSpan数据集致力于解决招聘文本中技能实体识别这一领域问题,其核心挑战在于区分硬技能与软技能,这两类技能在语言表达上往往模糊且上下文依赖性强。构建过程中的挑战包括:数据来源的异构性,即技术岗位与家庭服务岗位的文本风格和术语差异显著;标注一致性难以保证,技能边界界定需依赖领域专家精细判断;以及数据规模有限,可能影响模型泛化能力。这些挑战共同制约了技能抽取系统的准确性与鲁棒性。
常用场景
经典使用场景
在自然语言处理领域,SkillSpan数据集为技能提取任务提供了关键资源。该数据集源自英文招聘广告,通过标注硬技能与软技能,支持序列标注模型的训练与评估。研究者利用其精细的BIO标签体系,能够开发出精准识别文本中技能实体的算法,从而推动信息抽取技术的发展。
解决学术问题
SkillSpan数据集有效解决了技能自动提取中的标注稀缺问题。传统方法往往依赖人工标注,成本高昂且规模有限。该数据集通过大规模标注招聘广告中的技能短语,为学术界提供了标准化的评估基准,促进了命名实体识别和细粒度信息抽取领域的研究进展,提升了模型在真实场景中的泛化能力。
衍生相关工作
围绕SkillSpan数据集,衍生出多项经典研究工作。例如,研究者基于其标注框架扩展了多语言技能提取模型,并探索了跨领域迁移学习策略。这些工作不仅深化了对技能语义的理解,还推动了预训练语言模型在专业领域的应用,为后续的职业技能图谱构建奠定了坚实基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作