five

jensjorisdecorte/skill-extraction-tech

收藏
Hugging Face2024-07-18 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/jensjorisdecorte/skill-extraction-tech
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含SkillSpan数据集中`TECH`子集的扩展,其中句子中的技能提及被标记为对应的ESCO技能(ESCO v1.1.0)。此数据集是技能提取评估数据集的三部分之一,其他两部分分别是skill-extraction-house和skill-extraction-techwolf。

This dataset contains an extension of the `TECH` subset form the [SkillSpan](https://arxiv.org/abs/2204.12811) dataset, in which spans of skill mentions in sentences have been labeled with corresponding [ESCO](https://esco.ec.europa.eu/en/classification/skill_main) skills (ESCO v1.1.0). This dataset is part of a three-part evaluation dataset for skill extraction: 1. [**skill-extraction-tech**](https://huggingface.co/datasets/jensjorisdecorte/skill-extraction-tech) 2. [**skill-extraction-house**](https://huggingface.co/datasets/jensjorisdecorte/skill-extraction-house) 3. [**skill-extraction-techwolf**](https://huggingface.co/datasets/jensjorisdecorte/skill-extraction-techwolf).
提供机构:
jensjorisdecorte
原始信息汇总

数据集概述

数据集名称

  • 名称: skill-extraction-tech
  • 别名: jensjorisdecorte/skill-extraction-tech, Skill Extraction - TECH

数据集描述

  • 描述: 该数据集包含SkillSpan数据集的TECH子集的扩展,其中句子中的技能提及范围已标记为相应的ESCO技能(ESCO v1.1.0)。该数据集是技能提取的三个部分评估数据集之一,包括skill-extraction-tech、skill-extraction-house和skill-extraction-techwolf。

数据集创建者

  • 创建者: Jens-Joris Decorte
  • 链接: https://hf-mirror.com/jensjorisdecorte

数据集关键词

  • 关键词: text-classification, English, mit, 1K - 10K, csv, Text, Datasets, pandas, Croissant, arxiv:2209.05987, arxiv:2204.12811, 🇺🇸 Region: US, Skill Extraction

数据集许可

  • 许可: MIT License
  • 链接: https://choosealicense.com/licenses/mit/

数据集URL

  • URL: https://hf-mirror.com/datasets/jensjorisdecorte/skill-extraction-tech

数据集结构

  • 分布:

    • 类型: cr:FileObject

    • 名称: repo

    • 描述: HF Mirror git仓库。

    • 内容URL: https://hf-mirror.com/datasets/jensjorisdecorte/skill-extraction-tech/tree/refs%2Fconvert%2Fparquet

    • 编码格式: git+https

    • sha256: https://github.com/mlcommons/croissant/issues/80

    • 类型: cr:FileSet

    • 名称: parquet-files-for-config-default

    • 描述: 由HF Mirror转换的基础Parquet文件(参见:https://hf-mirror.com/docs/datasets-server/parquet)。

    • 包含于: repo

    • 编码格式: application/x-parquet

    • 包含: default//.parquet

  • 记录集:

    • 类型: cr:RecordSet
    • 名称: default
    • 描述: jensjorisdecorte/skill-extraction-tech - default子集,包含2个分割:validation, test。
    • 字段:
      • 类型: cr:Field

      • 名称: default/sentence

      • 描述: HF Mirror parquet文件中的sentence列。

      • 数据类型: sc:Text

      • 来源: parquet-files-for-config-default,提取自sentence列。

      • 类型: cr:Field

      • 名称: default/span

      • 描述: HF Mirror parquet文件中的span列。

      • 数据类型: sc:Text

      • 来源: parquet-files-for-config-default,提取自span列。

      • 类型: cr:Field

      • 名称: default/sub_span

      • 描述: HF Mirror parquet文件中的sub_span列。

      • 数据类型: sc:Text

      • 来源: parquet-files-for-config-default,提取自sub_span列。

      • 类型: cr:Field

      • 名称: default/label

      • 描述: HF Mirror parquet文件中的label列。

      • 数据类型: sc:Text

      • 来源: parquet-files-for-config-default,提取自label列。

数据集规范

  • 规范: http://mlcommons.org/croissant/1.0
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作