dataset-cbo

github2024-01-27 更新2024-05-31 收录

下载链接：

https://github.com/datasets-br/cbo

下载链接

链接失效反馈

官方服务：

资源简介：

巴西职业分类（CBO）数据集，用于识别劳动力市场中的职业，以便于行政和户籍登记的分类。数据集最初以PDF格式提供，该项目旨在将其转换为标准化的开放数据库，即简单的CSV文件格式，包含代码、关联术语和术语类型三列。

The Brazilian Classification of Occupations (CBO) dataset is utilized for identifying occupations within the labor market, facilitating administrative and civil registration classifications. Originally provided in PDF format, this project aims to convert it into a standardized open database, specifically a simple CSV file format, which includes three columns: code, associated terms, and term types.

创建时间：

2017-03-17

原始信息汇总

数据集概述

数据集名称

dataset-cbo

数据集目的

将原始的PDF格式巴西职业分类（CBO）转换为标准化的开放数据库，初始对应于一个简单的CSV格式文件。

数据集内容

包含三个主要字段：
- código CBO (代码CBO)：字段 codigo
- termo associado ao código (代码关联术语)：字段 termo
- tipo ou status do termo (术语类型或状态)：字段 tipo，可能值为 "sinônimo", "classificação" 或 "ocupação"

数据集格式

原始数据为PDF格式，转换后的数据为CSV格式。

数据集使用

提供两个CSV文件：
- data/lista_canonicos.csv：仅包含官方标准的术语和代码。
- data/lista.csv：包含完整的列表，包括同义词。

数据集准备过程

使用wget下载PDF文件。
使用pdftotext将PDF转换为文本。
使用grep, tr, sed等命令处理文本，生成CSV文件。
使用awk生成仅包含“ocupação”类型的列表。

数据集许可证

数据集遵循公共领域许可（CC0 1.0）。

搜集汇总

数据集介绍

构建方式

dataset-cbo数据集的构建过程主要基于巴西职业分类（CBO）的官方PDF文档。通过使用wget命令从官方网站下载PDF文件，并利用pdftotext工具将PDF转换为文本格式。随后，通过一系列命令行工具如grep、tr和sed，对文本进行清洗和格式化，最终生成结构化的CSV文件。该数据集包含三个主要列：CBO代码、相关术语以及术语类型（如“同义词”、“分类”或“职业”）。此外，还通过awk命令生成了仅包含规范术语的衍生列表。

特点

dataset-cbo数据集的特点在于其高度结构化和标准化。数据集不仅包含了巴西职业分类的完整信息，还通过区分术语类型（如“同义词”和“规范术语”）提供了更丰富的语义层次。数据集以CSV格式存储，便于在各种数据库和分析工具中使用。此外，数据集还提供了两种版本：一种是包含所有术语的完整列表，另一种是仅包含规范术语的简化列表，满足不同用户的需求。

使用方法

dataset-cbo数据集的使用方法非常灵活。用户可以直接访问GitHub仓库中的CSV文件进行在线查看或下载。对于需要查询规范术语的用户，可以使用`data/lista_canonicos.csv`文件；而对于需要完整术语信息的用户，则可以使用`data/lista.csv`文件。数据集支持通过命令行工具进行批量处理，也可以轻松集成到各种数据库和数据分析工具中。此外，数据集的开源性质允许用户根据需要进行二次开发和扩展。

背景与挑战

背景概述

dataset-cbo数据集源于巴西职业分类（Classificação Brasileira de Ocupações, CBO），该分类由巴西劳动部于2002年通过第397号法令正式确立，旨在为劳动力市场中的职业提供标准化分类，以便于行政和家庭记录的管理。该数据集最初以PDF格式发布，内容涵盖了职业代码、相关术语及其类型（如“同义词”、“分类”或“职业”）。2016年，巴西开放知识基金会（OKFN Brasil）启动了该项目，旨在将PDF格式的CBO转换为开放的标准化数据库，以CSV格式呈现，便于数据分析和应用。这一数据集不仅为巴西的职业分类研究提供了重要资源，还推动了巴西本地数据生态系统的发展，成为Data Packaged Core Datasets计划的一部分。

当前挑战

dataset-cbo数据集在构建过程中面临多重挑战。首先，原始数据以PDF格式发布，数据提取和转换过程复杂，需通过技术手段将非结构化的PDF内容转换为结构化的CSV格式，同时确保数据的完整性和准确性。其次，数据清洗和标准化过程中，需处理大量同义词和分类术语，确保术语的一致性和规范性。此外，由于原始数据来源的多样性和格式差异，数据整合和验证工作也面临较大难度。在应用层面，该数据集需解决职业分类的标准化问题，为劳动力市场研究、政策制定和数据分析提供可靠支持，但其复杂性和数据量对研究者的技术能力和资源提出了较高要求。

常用场景

经典使用场景

dataset-cbo数据集主要用于巴西职业分类系统（CBO）的标准化和数字化处理。该数据集将原始的PDF格式文件转换为结构化的CSV文件，包含职业代码、相关术语及其类型信息。这一转换使得职业数据更易于访问和分析，广泛应用于学术研究、政府统计和劳动力市场分析等领域。

衍生相关工作

dataset-cbo数据集的发布促进了相关领域的研究和应用。基于该数据集，研究人员开发了多种职业分类分析工具和模型，进一步推动了职业分类研究的深入。此外，该数据集还被用于构建巴西职业分类数据库，为政府和企业提供了全面的职业信息支持，推动了劳动力市场的数字化和智能化发展。

数据集最近研究