jjzha/skillspan

Name: jjzha/skillspan
Creator: jjzha
Published: 2023-09-07 12:12:10
License: 暂无描述

Hugging Face2023-09-07 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/jjzha/skillspan

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: cc-by-4.0 language: en --- This is the SkillSpan dataset created by: ``` @inproceedings{zhang-etal-2022-skillspan, title = "{S}kill{S}pan: Hard and Soft Skill Extraction from {E}nglish Job Postings", author = "Zhang, Mike and Jensen, Kristian and Sonniks, Sif and Plank, Barbara", booktitle = "Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies", month = jul, year = "2022", address = "Seattle, United States", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2022.naacl-main.366", doi = "10.18653/v1/2022.naacl-main.366", pages = "4962--4984" } ``` There are document delimiters indicated by `idx`. Number of samples (sentences): - train: 4800 - dev: 3174 - test: 3569 Sources: - Stackoverflow (tech) - STAR (house) Type of tags: - Generic BIO tags with keys `tags_skill` and `tags_knowledge` Sample: ``` { "idx": 53, "tokens": ["Drive", "our", "IT", "compliance", "agenda", "and", "develop", "our", "processes"], "tags_skill": ["B", "I", "I", "I", "I", "O", "B", "I", "I"], "tags_knowledge": ["O", "O", "O", "O", "O", "O", "O", "O", "O"], "source": "house" } ```

许可证：CC BY 4.0 语言：英语本数据集为SkillSpan数据集，由以下作者创建： @inproceedings{zhang-etal-2022-skillspan, title = "SkillSpan：从英语招聘启事中提取硬技能与软技能", author = "Zhang, Mike and Jensen, Kristian and Sonniks, Sif and Plank, Barbara", booktitle = "2022年计算语言学协会北美分会会议：人类语言技术研讨会论文集", month = "7月", year = "2022", address = "美国西雅图", publisher = "计算语言学协会（Association for Computational Linguistics）", url = "https://aclanthology.org/2022.naacl-main.366", doi = "10.18653/v1/2022.naacl-main.366", pages = "4962--4984" } 数据集采用`idx`作为文档分隔标记。样本（句子）数量分布如下： - 训练集：4800 - 开发集：3174 - 测试集：3569 数据来源： - Stackoverflow（科技领域） - STAR（房产领域）标签类型：采用带有`tags_skill`与`tags_knowledge`键的通用BIO标注标签（BIO tags）。样本示例： { "idx": 53, "tokens": ["Drive", "our", "IT", "compliance", "agenda", "and", "develop", "our", "processes"], "tags_skill": ["B", "I", "I", "I", "I", "O", "B", "I", "I"], "tags_knowledge": ["O", "O", "O", "O", "O", "O", "O", "O", "O"], "source": "house" }

提供机构：

jjzha

原始信息汇总

SkillSpan 数据集概述

数据集创建信息

标题: SkillSpan: Hard and Soft Skill Extraction from English Job Postings
作者: Mike Zhang, Kristian Jensen, Sif Sonniks, Barbara Plank
会议: Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies
时间: 2022年7月
地点: Seattle, United States
出版商: Association for Computational Linguistics

数据集结构

样本数量:
- 训练集: 4800
- 开发集: 3174
- 测试集: 3569
来源:
- Stackoverflow (tech)
- STAR (house)
标签类型:
- 通用BIO标签，包括 tags_skill 和 tags_knowledge

示例样本

json { "idx": 53, "tokens": ["Drive", "our", "IT", "compliance", "agenda", "and", "develop", "our", "processes"], "tags_skill": ["B", "I", "I", "I", "I", "O", "B", "I", "I"], "tags_knowledge": ["O", "O", "O", "O", "O", "O", "O", "O", "O"], "source": "house" }

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，技能抽取任务对理解职业市场动态至关重要。SkillSpan数据集基于StackOverflow的技术论坛和STAR招聘平台中的英文职位描述构建，通过人工标注将文本中的硬技能与软技能实体进行识别与分类。标注过程采用序列标注方法，为每个句子中的词汇分配BIO标签，分别标记技能与知识领域实体，确保了数据在语义层面的精确性。数据划分遵循机器学习常规，包含训练集、开发集与测试集，为模型训练与评估提供了结构化基础。

特点

该数据集在技能抽取研究中具有显著特色，其标注体系不仅涵盖硬技能，还扩展至软技能与知识领域，反映了职业需求的多维性。数据来源融合了技术社区与招聘平台，增强了样本的多样性与代表性，适用于跨领域分析。标注格式采用标准BIO框架，便于与主流命名实体识别模型兼容，同时提供清晰的文档索引与来源标识，支持细粒度的数据追溯与实验设计。

使用方法

SkillSpan数据集适用于自然语言处理中的序列标注任务，特别是技能与知识实体的抽取研究。使用者可加载预处理后的JSON格式数据，利用标注的BIO标签训练或评估命名实体识别模型，如基于BERT的架构。开发集可用于超参数调优，测试集则用于最终性能验证。数据中的来源字段支持按领域进行子集分析，例如比较技术与非技术职位中的技能分布，从而深化对职业文本语义的理解。

背景与挑战

背景概述

在自然语言处理领域，职业技能的自动识别对于优化招聘流程、分析劳动力市场需求具有重要价值。SkillSpan数据集由Mike Zhang、Kristian Jensen、Sif Sonniks和Barbara Plank等研究人员于2022年创建，并发表于北美计算语言学协会年会。该数据集专注于从英文招聘广告中提取硬技能和软技能，旨在解决职业文本中细粒度技能实体识别的研究问题。通过整合Stack Overflow的技术岗位数据和STAR的家庭服务岗位数据，SkillSpan为技能抽取任务提供了高质量的标注资源，推动了人力资源智能化分析的发展。

当前挑战

SkillSpan数据集致力于解决招聘文本中技能实体识别这一领域问题，其核心挑战在于区分硬技能与软技能，这两类技能在语言表达上往往模糊且上下文依赖性强。构建过程中的挑战包括：数据来源的异构性，即技术岗位与家庭服务岗位的文本风格和术语差异显著；标注一致性难以保证，技能边界界定需依赖领域专家精细判断；以及数据规模有限，可能影响模型泛化能力。这些挑战共同制约了技能抽取系统的准确性与鲁棒性。

常用场景

经典使用场景

在自然语言处理领域，SkillSpan数据集为技能提取任务提供了关键资源。该数据集源自英文招聘广告，通过标注硬技能与软技能，支持序列标注模型的训练与评估。研究者利用其精细的BIO标签体系，能够开发出精准识别文本中技能实体的算法，从而推动信息抽取技术的发展。

解决学术问题

SkillSpan数据集有效解决了技能自动提取中的标注稀缺问题。传统方法往往依赖人工标注，成本高昂且规模有限。该数据集通过大规模标注招聘广告中的技能短语，为学术界提供了标准化的评估基准，促进了命名实体识别和细粒度信息抽取领域的研究进展，提升了模型在真实场景中的泛化能力。

衍生相关工作

围绕SkillSpan数据集，衍生出多项经典研究工作。例如，研究者基于其标注框架扩展了多语言技能提取模型，并探索了跨领域迁移学习策略。这些工作不仅深化了对技能语义的理解，还推动了预训练语言模型在专业领域的应用，为后续的职业技能图谱构建奠定了坚实基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集