ICILS/isco_esco_occupations_taxonomy
收藏Hugging Face2024-04-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ICILS/isco_esco_occupations_taxonomy
下载链接
链接失效反馈官方服务:
资源简介:
ISCO-ESCO职业分类数据集是一个用于文本分类任务的数据集,特别是多类分类。数据集包含职业名称(ISCO_OCCUPATION)和职业代码(ISCO_CODE)两个主要特征,职业代码是一个分类标签。数据集的来源是European Commission ESCO,包含两个配置文件:isco_occupations和isco_taxonomy,分别对应职业分类和职业分类体系。
The ISCO-ESCO Occupation Classification Dataset is a dataset designed for text classification tasks, particularly multi-class classification. It includes two primary features: occupation name (ISCO_OCCUPATION) and occupation code (ISCO_CODE), where the occupation code serves as the classification label. The dataset is sourced from the European Commission ESCO, and contains two configuration files: isco_occupations and isco_taxonomy, which correspond to the occupation classification and the occupation classification system respectively.
提供机构:
ICILS
原始信息汇总
数据集卡片 for ISCO-ESCO Occupations Taxonomy
数据集详情
数据集描述
- 数据集名称: ISCO-ESCO Occupations Taxonomy
- 任务类别: 文本分类
- 任务ID: 多类分类
- 标签: 职业编码, ESCO, ISCO-08
- 来源数据集: 欧洲委员会 ESCO
- 语言: [更多信息需要]
- 许可证: [更多信息需要]
数据集配置
- 配置名称: isco_occupations
- 特征:
- ISCO_OCCUPATION: 字符串
- ISCO_CODE: 类别标签
- 名称: 0 到 9629 (共618个类别)
数据分割
- 分割名称: train
- 字节数: 248076
- 样本数: 7018
数据文件
-
配置名称: isco_occupations
- 分割: train
- 路径: data/isco_occupations.jsonl
-
配置名称: isco_taxonomy
- 分割: train
- 路径: data/isco_taxonomy.jsonl
训练与评估指标
- 配置: isco_occupations
- 任务: 文本分类
- 任务ID: 多类分类
- 分割: train
- 列映射:
- 文本: ISCO_OCCUPATION
- 标签: ISCO_CODE
- 指标:
- 准确率
- F1 macro
- F1 micro
- F1 weighted
- Precision macro
- Precision micro
- Precision weighted
- Recall macro
- Recall micro
- Recall weighted
- ISCO Hierarchical Accuracy
搜集汇总
数据集介绍

构建方式
本数据集由欧洲委员会ESCO项目提供,基于ISCO-08(国际标准职业分类)构建。数据集包含职业名称(ISCO_OCCUPATION)和相应的ISCO代码(ISCO_CODE),ISCO代码采用层次结构,能够反映职业分类的细粒度信息。数据集通过从ESCO数据库中提取相关信息,经过整理和清洗后形成。
使用方法
用户可以通过访问HuggingFace的datasets库来加载本数据集。数据集包含训练集和标签集,用户可以根据需要选择使用。加载后,用户可以对数据进行预处理和特征提取,以用于文本分类等任务。数据集还提供了多种评估指标,如准确率、F1值等,方便用户评估模型的性能。
背景与挑战
背景概述
在当今社会,职业分类体系对于劳动力市场分析、教育规划以及职业发展指导等方面具有重要意义。ISCO-ESCO Occupations Taxonomy数据集正是在这样的背景下应运而生,旨在为研究者提供一个详细、标准化的职业分类框架。该数据集由欧洲委员会ESCO项目支持,是ISCO-08国际标准职业分类体系与ESCO欧洲职业分类体系相结合的产物。数据集的核心研究问题在于如何准确地对职业进行编码和分类,以便更好地服务于各种社会经济分析。自创建以来,ISCO-ESCO Occupations Taxonomy数据集已经在多个领域产生了深远的影响,为职业研究和相关政策的制定提供了宝贵的数据支持。
当前挑战
尽管ISCO-ESCO Occupations Taxonomy数据集为职业分类领域的研究提供了丰富的数据资源,但其在实际应用中也面临着一些挑战。首先,数据集的构建过程中需要解决职业分类的标准化问题,确保不同地区和行业的职业能够被准确地对号入座。其次,随着新兴职业的不断涌现,数据集的更新和维护成为一个持续性的挑战,需要不断地更新职业分类体系以适应时代的变化。此外,数据集在应用于实际研究时,如何确保分类结果的准确性和可靠性,以及如何处理跨文化和跨语言的职业分类问题,都是亟待解决的难题。
常用场景
经典使用场景
ISCO-ESCO职业分类数据集,作为职业分类领域的重要资源,被广泛应用于机器学习模型训练和评估。该数据集包含丰富的职业信息,为模型提供了充足的数据支持,从而使得模型能够准确地对职业进行分类和预测。此外,数据集的多样性也为模型训练提供了良好的基础,有助于提高模型的泛化能力。
解决学术问题
ISCO-ESCO职业分类数据集解决了职业分类领域中存在的数据匮乏和分类不准确的问题。通过对大量职业数据的收集和整理,该数据集为研究者提供了丰富的数据资源,有助于提高职业分类的准确性和可靠性。同时,数据集的标准化分类体系也为职业分类研究提供了重要的参考依据,有助于推动职业分类领域的发展。
实际应用
ISCO-ESCO职业分类数据集在实际应用中,被广泛应用于职业规划、人力资源管理、社会调查等领域。通过对职业信息的准确分类和预测,该数据集有助于企业和个人更好地了解职业发展趋势,为职业规划提供有力支持。此外,数据集的标准化分类体系也为人力资源管理系统提供了重要的参考依据,有助于提高人力资源管理的效率和质量。
数据集最近研究
最新研究方向
近年来,ISCO-ESCO职业分类数据集在职业编码领域的研究方向主要集中在多类别文本分类任务上。研究者们致力于利用机器学习模型对职业描述进行自动分类,以实现高效、准确的职业编码。这一研究方向与当前职业分类和职业发展的热点事件紧密相关,如人工智能和自动化技术对传统职业的冲击、新兴职业的涌现等。ISCO-ESCO职业分类数据集的研究和改进对于提高职业编码的效率和准确性具有重要意义,有助于推动职业信息系统的智能化发展,为职业规划、人才招聘等领域提供有力的数据支持。
以上内容由遇见数据集搜集并总结生成



