jjzha/green
收藏Hugging Face2023-09-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/jjzha/green
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由Green、Maynard和Lin于2022年创建,用于支持职位描述中的实体识别任务。数据集包含句子级别的任务,没有文档分隔符。数据集分为训练集、开发集和测试集,分别包含8669、964和335个样本。标签类型包括通用的BIO标签和更细粒度的标签,如SKILL(技能)、QUALIFICATION(资格)、EXPERIENCE(经验)、OCCUPATION(职业)和DOMAIN(领域),同时还包含词性标注(POS)。数据集来源于TotalJobs(英国)。
该数据集由Green、Maynard和Lin于2022年创建,用于支持职位描述中的实体识别任务。数据集包含句子级别的任务,没有文档分隔符。数据集分为训练集、开发集和测试集,分别包含8669、964和335个样本。标签类型包括通用的BIO标签和更细粒度的标签,如SKILL(技能)、QUALIFICATION(资格)、EXPERIENCE(经验)、OCCUPATION(职业)和DOMAIN(领域),同时还包含词性标注(POS)。数据集来源于TotalJobs(英国)。
提供机构:
jjzha
原始信息汇总
数据集概述
数据集创建者
- 作者: Green, Thomas; Maynard, Diana; Lin, Chenghua
- 论文标题: Development of a Benchmark Corpus to Support Entity Recognition in Job Descriptions
- 发表会议: Proceedings of the Thirteenth Language Resources and Evaluation Conference
- 发表时间: June 2022
- 出版商: European Language Resources Association
数据集详情
- 许可证: CC-BY-4.0
- 语言: English
- 样本数量:
- 训练集: 8669 sentences
- 验证集: 964 sentences
- 测试集: 335 sentences
- 数据来源: TotalJobs (UK)
- 标签类型:
- 通用标签: BIO tags with key
tags_skill - 精细标签:
SKILL: Tasks or attributes and abilities.QUALIFICATION: Official certifications.EXPERIENCE: Lengths of time relating to a position or skill.OCCUPATION: Job titles.DOMAIN: Areas of industry.
- 词性标签: Indicated by
pos
- 通用标签: BIO tags with key
示例
{ "idx": 959, "tokens": ["negotiating", "and", "commercial", "skills", "Conscientious", "and", "thorough", "by", "nature"], "tags_skill": ["B-SKILL", "I-SKILL", "I-SKILL", "I-SKILL", "I-SKILL", "O", "B-SKILL", "O", "O"], "pos": ["NN", "CC", "JJ", "NNS", "JJ", "CC", "JJ", "IN", "NN"] }



