jjzha/skillspan
收藏Hugging Face2023-09-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/jjzha/skillspan
下载链接
链接失效反馈官方服务:
资源简介:
---
license: cc-by-4.0
language: en
---
This is the SkillSpan dataset created by:
```
@inproceedings{zhang-etal-2022-skillspan,
title = "{S}kill{S}pan: Hard and Soft Skill Extraction from {E}nglish Job Postings",
author = "Zhang, Mike and
Jensen, Kristian and
Sonniks, Sif and
Plank, Barbara",
booktitle = "Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies",
month = jul,
year = "2022",
address = "Seattle, United States",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2022.naacl-main.366",
doi = "10.18653/v1/2022.naacl-main.366",
pages = "4962--4984"
}
```
There are document delimiters indicated by `idx`.
Number of samples (sentences):
- train: 4800
- dev: 3174
- test: 3569
Sources:
- Stackoverflow (tech)
- STAR (house)
Type of tags:
- Generic BIO tags with keys `tags_skill` and `tags_knowledge`
Sample:
```
{
"idx": 53,
"tokens": ["Drive", "our", "IT", "compliance", "agenda", "and", "develop", "our", "processes"],
"tags_skill": ["B", "I", "I", "I", "I", "O", "B", "I", "I"],
"tags_knowledge": ["O", "O", "O", "O", "O", "O", "O", "O", "O"],
"source": "house"
}
```
许可证:CC BY 4.0
语言:英语
本数据集为SkillSpan数据集,由以下作者创建:
@inproceedings{zhang-etal-2022-skillspan,
title = "SkillSpan:从英语招聘启事中提取硬技能与软技能",
author = "Zhang, Mike and
Jensen, Kristian and
Sonniks, Sif and
Plank, Barbara",
booktitle = "2022年计算语言学协会北美分会会议:人类语言技术研讨会论文集",
month = "7月",
year = "2022",
address = "美国西雅图",
publisher = "计算语言学协会(Association for Computational Linguistics)",
url = "https://aclanthology.org/2022.naacl-main.366",
doi = "10.18653/v1/2022.naacl-main.366",
pages = "4962--4984"
}
数据集采用`idx`作为文档分隔标记。
样本(句子)数量分布如下:
- 训练集:4800
- 开发集:3174
- 测试集:3569
数据来源:
- Stackoverflow(科技领域)
- STAR(房产领域)
标签类型:采用带有`tags_skill`与`tags_knowledge`键的通用BIO标注标签(BIO tags)。
样本示例:
{
"idx": 53,
"tokens": ["Drive", "our", "IT", "compliance", "agenda", "and", "develop", "our", "processes"],
"tags_skill": ["B", "I", "I", "I", "I", "O", "B", "I", "I"],
"tags_knowledge": ["O", "O", "O", "O", "O", "O", "O", "O", "O"],
"source": "house"
}
提供机构:
jjzha
原始信息汇总
SkillSpan 数据集概述
数据集创建信息
- 标题: SkillSpan: Hard and Soft Skill Extraction from English Job Postings
- 作者: Mike Zhang, Kristian Jensen, Sif Sonniks, Barbara Plank
- 会议: Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies
- 时间: 2022年7月
- 地点: Seattle, United States
- 出版商: Association for Computational Linguistics
数据集结构
- 样本数量:
- 训练集: 4800
- 开发集: 3174
- 测试集: 3569
- 来源:
- Stackoverflow (tech)
- STAR (house)
- 标签类型:
- 通用BIO标签,包括
tags_skill和tags_knowledge
- 通用BIO标签,包括
示例样本
json { "idx": 53, "tokens": ["Drive", "our", "IT", "compliance", "agenda", "and", "develop", "our", "processes"], "tags_skill": ["B", "I", "I", "I", "I", "O", "B", "I", "I"], "tags_knowledge": ["O", "O", "O", "O", "O", "O", "O", "O", "O"], "source": "house" }
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,技能抽取任务对理解职业市场动态至关重要。SkillSpan数据集基于StackOverflow的技术论坛和STAR招聘平台中的英文职位描述构建,通过人工标注将文本中的硬技能与软技能实体进行识别与分类。标注过程采用序列标注方法,为每个句子中的词汇分配BIO标签,分别标记技能与知识领域实体,确保了数据在语义层面的精确性。数据划分遵循机器学习常规,包含训练集、开发集与测试集,为模型训练与评估提供了结构化基础。
特点
该数据集在技能抽取研究中具有显著特色,其标注体系不仅涵盖硬技能,还扩展至软技能与知识领域,反映了职业需求的多维性。数据来源融合了技术社区与招聘平台,增强了样本的多样性与代表性,适用于跨领域分析。标注格式采用标准BIO框架,便于与主流命名实体识别模型兼容,同时提供清晰的文档索引与来源标识,支持细粒度的数据追溯与实验设计。
使用方法
SkillSpan数据集适用于自然语言处理中的序列标注任务,特别是技能与知识实体的抽取研究。使用者可加载预处理后的JSON格式数据,利用标注的BIO标签训练或评估命名实体识别模型,如基于BERT的架构。开发集可用于超参数调优,测试集则用于最终性能验证。数据中的来源字段支持按领域进行子集分析,例如比较技术与非技术职位中的技能分布,从而深化对职业文本语义的理解。
背景与挑战
背景概述
在自然语言处理领域,职业技能的自动识别对于优化招聘流程、分析劳动力市场需求具有重要价值。SkillSpan数据集由Mike Zhang、Kristian Jensen、Sif Sonniks和Barbara Plank等研究人员于2022年创建,并发表于北美计算语言学协会年会。该数据集专注于从英文招聘广告中提取硬技能和软技能,旨在解决职业文本中细粒度技能实体识别的研究问题。通过整合Stack Overflow的技术岗位数据和STAR的家庭服务岗位数据,SkillSpan为技能抽取任务提供了高质量的标注资源,推动了人力资源智能化分析的发展。
当前挑战
SkillSpan数据集致力于解决招聘文本中技能实体识别这一领域问题,其核心挑战在于区分硬技能与软技能,这两类技能在语言表达上往往模糊且上下文依赖性强。构建过程中的挑战包括:数据来源的异构性,即技术岗位与家庭服务岗位的文本风格和术语差异显著;标注一致性难以保证,技能边界界定需依赖领域专家精细判断;以及数据规模有限,可能影响模型泛化能力。这些挑战共同制约了技能抽取系统的准确性与鲁棒性。
常用场景
经典使用场景
在自然语言处理领域,SkillSpan数据集为技能提取任务提供了关键资源。该数据集源自英文招聘广告,通过标注硬技能与软技能,支持序列标注模型的训练与评估。研究者利用其精细的BIO标签体系,能够开发出精准识别文本中技能实体的算法,从而推动信息抽取技术的发展。
解决学术问题
SkillSpan数据集有效解决了技能自动提取中的标注稀缺问题。传统方法往往依赖人工标注,成本高昂且规模有限。该数据集通过大规模标注招聘广告中的技能短语,为学术界提供了标准化的评估基准,促进了命名实体识别和细粒度信息抽取领域的研究进展,提升了模型在真实场景中的泛化能力。
衍生相关工作
围绕SkillSpan数据集,衍生出多项经典研究工作。例如,研究者基于其标注框架扩展了多语言技能提取模型,并探索了跨领域迁移学习策略。这些工作不仅深化了对技能语义的理解,还推动了预训练语言模型在专业领域的应用,为后续的职业技能图谱构建奠定了坚实基础。
以上内容由遇见数据集搜集并总结生成



