five

jjzha/green

收藏
Hugging Face2023-09-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/jjzha/green
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集由Green、Maynard和Lin于2022年创建,用于支持职位描述中的实体识别任务。数据集包含句子级别的任务,没有文档分隔符。数据集分为训练集、开发集和测试集,分别包含8669、964和335个样本。标签类型包括通用的BIO标签和更细粒度的标签,如SKILL(技能)、QUALIFICATION(资格)、EXPERIENCE(经验)、OCCUPATION(职业)和DOMAIN(领域),同时还包含词性标注(POS)。数据集来源于TotalJobs(英国)。

该数据集由Green、Maynard和Lin于2022年创建,用于支持职位描述中的实体识别任务。数据集包含句子级别的任务,没有文档分隔符。数据集分为训练集、开发集和测试集,分别包含8669、964和335个样本。标签类型包括通用的BIO标签和更细粒度的标签,如SKILL(技能)、QUALIFICATION(资格)、EXPERIENCE(经验)、OCCUPATION(职业)和DOMAIN(领域),同时还包含词性标注(POS)。数据集来源于TotalJobs(英国)。
提供机构:
jjzha
原始信息汇总

数据集概述

数据集创建者

  • 作者: Green, Thomas; Maynard, Diana; Lin, Chenghua
  • 论文标题: Development of a Benchmark Corpus to Support Entity Recognition in Job Descriptions
  • 发表会议: Proceedings of the Thirteenth Language Resources and Evaluation Conference
  • 发表时间: June 2022
  • 出版商: European Language Resources Association

数据集详情

  • 许可证: CC-BY-4.0
  • 语言: English
  • 样本数量:
    • 训练集: 8669 sentences
    • 验证集: 964 sentences
    • 测试集: 335 sentences
  • 数据来源: TotalJobs (UK)
  • 标签类型:
    • 通用标签: BIO tags with key tags_skill
    • 精细标签:
      • SKILL: Tasks or attributes and abilities.
      • QUALIFICATION: Official certifications.
      • EXPERIENCE: Lengths of time relating to a position or skill.
      • OCCUPATION: Job titles.
      • DOMAIN: Areas of industry.
    • 词性标签: Indicated by pos

示例

{ "idx": 959, "tokens": ["negotiating", "and", "commercial", "skills", "Conscientious", "and", "thorough", "by", "nature"], "tags_skill": ["B-SKILL", "I-SKILL", "I-SKILL", "I-SKILL", "I-SKILL", "O", "B-SKILL", "O", "O"], "pos": ["NN", "CC", "JJ", "NNS", "JJ", "CC", "JJ", "IN", "NN"] }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作