five

caged_2026

收藏
Hugging Face2026-05-19 更新2026-05-21 收录
下载链接:
https://huggingface.co/datasets/cauanalima/caged_2026
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集集合了巴西圣保罗州Botucatu市的多维度经济与金融数据,通过自动化管道从多个官方数据源整合而成。数据集包含四个主要组成部分:1) 就业市场数据(CAGED),来自巴西劳动部的新CAGED系统,涵盖月度就业变动指标;2) 市政财务数据(Siconfi),来自巴西国家财政部的Siconfi系统API,包含市政资金管理信息;3) 企业注册数据(CNPJ/MEI),来自巴西联邦税务局的开放数据门户,包含企业注册详细信息;4) 国际贸易数据(Comex Stat),来自巴西发展、工业、贸易和服务部的API,包含Botucatu市的月度进出口总额数据。数据通过脚本自动处理,生成多个CSV文件,适用于市政经济监测、就业市场分析、企业生态研究、政策制定支持和学术研究等场景。

This dataset aggregates multi-dimensional economic and financial data for the city of Botucatu in São Paulo, Brazil, integrated through an automated pipeline from multiple official data sources. It consists of four main components: 1) Employment market data (CAGED) from Brazils Ministry of Labor, covering monthly employment changes; 2) Municipal financial data (Siconfi) from the Brazilian National Treasurys Siconfi system API, including cash management information; 3) Business registration data (CNPJ/MEI) from the Brazilian Federal Revenues open data portal, with details on business registrations; 4) International trade data (Comex Stat) from the Brazilian Ministry of Development, Industry, Trade, and Services API, containing monthly import and export totals for Botucatu. The data is automatically processed via scripts to generate multiple CSV files, suitable for municipal economic monitoring, employment market analysis, business ecosystem research, policy-making support, and academic studies.
创建时间:
2026-05-16
搜集汇总
数据集介绍
main_image_url
构建方式
caged_2026 数据集的构建依托于一个高度自动化的 ETL 管道,该管道以巴西圣保罗州博图卡图市(Botucatu)为分析单元,整合多源异构数据。核心组分是“新 CAGED”行政登记数据,通过 FTP 协议从官方服务器按年度/月份目录批量下载,每个快照同时获取 MOV、FOR 和 EXC 三类文件,利用 py7zr 解压缩后以每 10 万行为一个数据块进行流式读取,并基于 IBGE 城市代码 350750 进行地理过滤。系统随后将 Siconfi 财政数据(通过 API 查询 msc_patrimonial 端点,筛选以 1.1.1 开头的账户)进行融合,最终输出包含就业人口流动与政府财务的多表快照型数据集。可选扩展模块还支持进一步整合巴西联邦税务局公开的 CNPJ/MEI 企业注册数据以及 MDIC 的 Comex Stat 外贸统计数据。
特点
该数据集的一大核心特点是严格的数据一致性与版本可追溯性。通过强制从同一 FTP 快照(即同一月的 MOV、FOR 与 EXC 文件)中提取数据,避免了因跨版本混合计算导致的人员流动记录重复或正负相抵的失真现象。系统引入基于列级标识符的去重机制,优先保留 EXC > FOR > MOV 的声明顺序,以处理多文件间的最优记录。同时,每条微观记录均经由“事件层转事实层”的审计逻辑进行聚合,输出按 CNAE 行业分类与城市级对比的月度事实表,并为每次管道执行生成附带 SHA-256 校验和的元数据文件,确保数据来源的可验证性与重现性。
使用方法
使用者可通过克隆该数据集配套的代码仓库并配置 Python 3.10+ 环境来启动数据处理管道,运行 `python pipeline_botucatu.py` 即可自动完成从 FTP 抓取到 CSV 文件导出的全流程。管道支持通过环境变量(如 `PIPELINE_CAGED_START_YEAR`、`PIPELINE_CAGED_CLEAN_OUTPUTS`)定制执行范围与清理策略。对于仅需分析最终结果的用户,可直接加载通过 CI/CD 流程或手动生成的 CSV 文件,其字段结构清晰,包含月度就业流动统计与财政余额指标。这些文件可无缝对接配套的 Streamlit 交互式仪表盘(通过 `streamlit run app.py` 本地启动),或直接用于 Python 的数据分析工作流中,利用 `pandas` 等工具进行进一步建模与可视化。
背景与挑战
背景概述
CAGED_2026数据集由巴西研究机构Observatório Botucatu于2026年创建,聚焦于圣保罗州博图卡图市的劳动与金融经济动态监测。该数据集依托巴西联邦政府的新版就业与失业人员登记系统(Novo CAGED)、财政金融信息数据库(Siconfi)及公开商业注册数据(CNPJ),构建了一个多源融合的市级经济观测体系。其核心研究问题在于通过自动化ETL流水线,实时捕获并结构化展示区域劳动力市场的入职、离职、工资变动与市政财政状况,填补了巴西市级层面精细经济数据集的空白。该数据集对于研究地方就业政策效果、小微企业生态及市政财政健康度具有重要实证价值,为公共管理者与区域经济学家提供了低成本、高时效的数据基础设施。
当前挑战
CAGED_2026数据集面临多重挑战。首先,在领域问题层面,其旨在解决的市级劳动力与金融数据监测长期受制于数据碎片化与发布延迟:CAGED官方FTP的月度快照存在版本不一致风险(如混合不同时期的MOV、FOR、EXC文件),易导致移动记录重复或遗漏;同时,Siconfi API返回的财政数据粒度较粗,难以精准匹配至特定市政账户。在构建过程中,挑战尤为突出:ETL流水线需处理数GB的压缩数据(如CNPJ全量数据库),在有限计算资源下实现高频更新(每日调度);对动态变化的FTP目录需设计回溯探测机制以确保捕获最新发布的竞争月数据,并在中断后支持断点续传;此外,多源数据(CAGED、Siconfi、CNPJ、Comex Stat)的异构模式与编码标准(如CNPJ数据集中Municípios.zip的特定字段)要求复杂的清洗与关联逻辑,且部分API(如Comex Stat)存在请求频率限制(HTTP 429),迫使引入自适应节流策略。
常用场景
经典使用场景
该数据集caged_2026的核心用途在于为巴西圣保罗州博图卡图市(Botucatu)的劳动力市场与经济金融活动提供周期性监测与分析。它通过系统整合巴西联邦政府公开的CAGED(就业与失业登记系统)月度微观数据,精准捕捉该市的就业波动、行业吸纳与裁减动态。研究者可借助该数据描绘特定时段内的就业净增量、行业热门岗位与冗余岗位分布,从而评估地方经济韧性与宏观政策干预效果。其经典用法体现在以高分辨率的时间序列数据刻画劳动力市场的短期振荡,为学术研究与政策制定提供实证基础。
实际应用
在实际应用层面,该数据集服务于博图卡图市政府、企业联合会及社会研究机构的日常决策支持。通过嵌入Streamlit交互式仪表板,市政当局可实时监控当月就业签证的净增变化,对比往期数据及早发现行业萎缩风险,从而精准施政——如为就业下滑严重的行业制定专项扶持计划。本地商会亦可将行业就业趋势作为营商环境晴雨表,据此调整投资布局与技能培训方向。此外,该数据集还能为商业银行评估区域信贷风险提供侧面佐证,将就业热度作为市场需求的间接代理变量,优化小微企业的授信策略。
衍生相关工作
该数据集衍生了一系列围绕开放式经济数据管道与可视化研究的经典工作。其ETL流程(pipeline_botucatu.py)已成为巴西公共数据(CAGED、Siconfi、CNPJ和Comex Stat)整合的标杆范例,推动了市政级数据治理的方法论创新。后续研究在此基础上扩展了多源融合框架,实现了CAGED就业数据与CNPJ企业注册、Siconfi财政数据的交叉分析,为评估企业存活率与财政支出的就业弹性创造了条件。此外,关于数据去重策略及FTP快照版本控制的技术文档,也为同类项目的可复现性提供了重要参照,巩固了开放科学理念在巴西公共管理领域的实践基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作