jensjorisdecorte/skill-extraction-tech
收藏数据集概述
数据集名称
- 名称: skill-extraction-tech
- 别名: jensjorisdecorte/skill-extraction-tech, Skill Extraction - TECH
数据集描述
- 描述: 该数据集包含SkillSpan数据集的TECH子集的扩展,其中句子中的技能提及范围已标记为相应的ESCO技能(ESCO v1.1.0)。该数据集是技能提取的三个部分评估数据集之一,包括skill-extraction-tech、skill-extraction-house和skill-extraction-techwolf。
数据集创建者
- 创建者: Jens-Joris Decorte
- 链接: https://hf-mirror.com/jensjorisdecorte
数据集关键词
- 关键词: text-classification, English, mit, 1K - 10K, csv, Text, Datasets, pandas, Croissant, arxiv:2209.05987, arxiv:2204.12811, 🇺🇸 Region: US, Skill Extraction
数据集许可
- 许可: MIT License
- 链接: https://choosealicense.com/licenses/mit/
数据集URL
- URL: https://hf-mirror.com/datasets/jensjorisdecorte/skill-extraction-tech
数据集结构
-
分布:
-
类型: cr:FileObject
-
名称: repo
-
描述: HF Mirror git仓库。
-
内容URL: https://hf-mirror.com/datasets/jensjorisdecorte/skill-extraction-tech/tree/refs%2Fconvert%2Fparquet
-
编码格式: git+https
-
sha256: https://github.com/mlcommons/croissant/issues/80
-
类型: cr:FileSet
-
名称: parquet-files-for-config-default
-
描述: 由HF Mirror转换的基础Parquet文件(参见:https://hf-mirror.com/docs/datasets-server/parquet)。
-
包含于: repo
-
编码格式: application/x-parquet
-
包含: default//.parquet
-
-
记录集:
- 类型: cr:RecordSet
- 名称: default
- 描述: jensjorisdecorte/skill-extraction-tech - default子集,包含2个分割:validation, test。
- 字段:
-
类型: cr:Field
-
名称: default/sentence
-
描述: HF Mirror parquet文件中的sentence列。
-
数据类型: sc:Text
-
来源: parquet-files-for-config-default,提取自sentence列。
-
类型: cr:Field
-
名称: default/span
-
描述: HF Mirror parquet文件中的span列。
-
数据类型: sc:Text
-
来源: parquet-files-for-config-default,提取自span列。
-
类型: cr:Field
-
名称: default/sub_span
-
描述: HF Mirror parquet文件中的sub_span列。
-
数据类型: sc:Text
-
来源: parquet-files-for-config-default,提取自sub_span列。
-
类型: cr:Field
-
名称: default/label
-
描述: HF Mirror parquet文件中的label列。
-
数据类型: sc:Text
-
来源: parquet-files-for-config-default,提取自label列。
-
数据集规范
- 规范: http://mlcommons.org/croissant/1.0



