exoneracoes_nomeacoes_dou
收藏github2026-05-12 更新2026-05-13 收录
下载链接:
https://github.com/0rakul0/exoneracoes_nomeacoes_dou
下载链接
链接失效反馈官方服务:
资源简介:
该项目旨在从巴西官方公报中构建一个历史数据集,记录发布的免职和任命行为。初始阶段专注于里约热内卢州政府,通过处理里约热内卢州官方公报的在线版本,将官方版本转换为Markdown格式,识别任命和免职行为,并编目日期、册子、人员姓名、行为类型、职位、机构、片段和来源URL,最终生成可用于新闻、历史和公民分析的年度CSV文件,并计划扩展到其他州。
This project aims to build a historical dataset from Brazilian official gazettes, capturing published appointment and dismissal actions. The initial phase focuses on the Rio de Janeiro state government: by processing the online editions of the Rio de Janeiro state official gazette, it converts official documents into Markdown format, identifies appointment and dismissal actions, and catalogs details including date, issue number, personnel names, action type, position, institution, text snippet, and source URL. Finally, it generates annual CSV files suitable for journalism, historical research and civic analysis, with plans to expand coverage to other states.
创建时间:
2026-04-30
原始信息汇总
以下是对该数据集详情页面的全面概述:
数据集概述
项目名称:Exoneracoes e nomeacoes nos diarios oficiais(巴西官方公报中的免职与任命数据集)
项目地址:https://github.com/0rakul0/exoneracoes_nomeacoes_dou
核心目标
- 构建巴西官方公报中发布的免职(exoneracao)与任命(nomeacao)行为的历史数据库。
- 初步聚焦于里约热内卢州(Rio de Janeiro),跟踪该州官方公报(DOERJ/IOERJ)从最新在线版本到历史版本的完整内容。
主要功能
- 文档转换:使用 Docling 将官方公报版本转换为 Markdown 格式,并保存于
LAKE/UF目录。 - 行为识别:自动识别公文中的“任命”(NOMEAR)和“免职”(EXONERAR)行为。
- 数据提取:提取并结构化存储以下字段:日期、分册、人员姓名、行为类型、职位、机构、原文片段及来源 URL。
- 结构化输出:按年生成可审计的 CSV 文件,便于新闻分析、历史研究和公民监督。
- 多州扩展:计划在保持相同数据采集和结构标准的前提下,扩展至巴西其他州。
数据来源
- 初始来源:里约热内卢州官方公报门户(IOERJ)
- 日历链接:https://www.ioerj.com.br/portal/modules/conteudoonline/do_seleciona_data.php
- 覆盖范围:在线日历目前列出自 2005 年 7 月以来的版本;2008 年之前的版本可能需要单独处理。
数据规模与主要发现
分析维度
项目包含探索性分析,从以下维度观察行政人员流动模式:
- 按代表人分布:分析每位政治或机构代表人任期内的任命与免职总量、净余额及时间演变。
- 年度演变:观察行政行为的年度波动,识别高流动期、重组期及政治过渡期。
关键发现
| 统计指标 | 数值 |
|---|---|
| 最大总行为量 | Claudio Bomfim de Castro e Silva(州行政长官)— 57,498 次 |
| 最大任命量 | Claudio Bomfim de Castro e Silva — 31,557 次 |
| 最大免职量 | Claudio Bomfim de Castro e Silva — 25,941 次 |
| 最高净余额 | Claudio Bomfim de Castro e Silva — +5,616 |
| 最大负净余额 | Ricardo Couto de Castro(TJ-RJ) — -1,303 |
主要模式
- 行政权集中:大部分行政行为集中在州行政长官代表人身上。
- 量与余额分离:高总量不必然对应高净余额,需分开分析。
- 可量化流动:数据结构支持精确追踪人员进出时间。
- 分析潜力:可进一步计算机构再吸收率、免职到任命的平均时间、职位间流动网络等。
数据结构
文件路径
| 类型 | 路径示例 |
|---|---|
| Markdown 源文件 | LAKE/RJ/2026/04/DOERJ_PARTE_I_PODER_EXECUTIVO_2026-04-29.md |
| 年度 CSV | saida/RJ/DOERJ_2026.csv |
CSV 字段定义
| 字段 | 说明 |
|---|---|
estado |
来源州(联邦单位) |
diario |
官方公报名称 |
data_publicacao |
版本发布日期 |
caderno |
版本分册/章节 |
tipo_ato |
行为类型:nomeacao 或 exoneracao |
nome |
从公文中提取的人员姓名 |
id_funcional |
提取到的功能 ID(若有) |
assinante |
签署人姓名(若检测到) |
cargo_assinante |
签署人职位 |
categoria_assinante |
签署人职位类别编号 |
cargo |
被任命或被免职的职位 |
orgao |
所属机构(若检测到) |
trecho |
用于提取的原文片段 |
fonte_url |
查阅的官方页面 URL |
arquivo_markdown |
Docling 生成的 Markdown 文件路径 |
签署人职位类别
| 类别编号 | 职位 |
|---|---|
| 1 | 州长 |
| 2 | 代理州长 |
| 3 | 董事会主席 |
| 4 | 州务秘书 |
| 5 | 秘书 |
| 6 | 主席 |
| 7 | 总干事 |
| 8 | 主任或副主任 |
| 9 | 副秘书 |
| 10 | 总监 |
| 11 | 办公室主任 |
| 12 | 协调员 |
分析产出
运行分析脚本后,生成以下文件(位于 saida/analises/UF/):
| 文件 | 内容 |
|---|---|
movimentacoes_pessoas.csv |
按人员维度的时间序列数据 |
retornos_apos_exoneracao.csv |
免职后重新入职的记录 |
resumo_pessoas.csv |
人员维度汇总统计 |
nomes_suspeitos.csv |
经 spaCy 验证的可疑名称记录 |
技术实现要点
- 启发式解析器:基于规则匹配,旨在启动可追溯的数据采集,不承诺 100% 准确率。
- OCR 支持:默认使用 PDF 内嵌文本;若文本不足,可启用 OCR 回退。
- 可选 spaCy 验证:用于校验提取的名称是否似人名,支持
annotate(仅标注)和block(拦截)两种模式。 - 增量更新:Markdown 文件若已存在则直接复用;CSV 每年更新,不重复录入。
- 缓存机制:PDF 文件缓存于
.cache/diarios,避免重复下载。 - Docling 大文件处理:支持 PDF 分块转换以降低内存占用。
未来扩展方向
- 扩展测试至更多近期《权力执行》分册。
- 区分集体行为与个人行为。
- 改进职位和机构的提取精度。
- 记录每版公文的指标:找到的行为总数、处理页数等。
- 为其他州创建对应的数据连接器。
搜集汇总
数据集介绍

构建方式
在巴西公共行政透明化的浪潮中,公共人事任免数据的系统化整理成为提升治理可见度的关键环节。exoneracoes_nomeacoes_dou数据集正是为此而生,其构建方式颇具匠心:研究团队首先从里约热内卢州官方公报(IOERJ)的在线门户回溯历史版本,将2005年7月以来的官方PDF文件通过Docling工具转换为Markdown格式,并以“州/年/月”的树状层级存储在数据湖中。随后,基于正则表达式与spaCy自然语言处理模型,从文本中精准识别“任命”与“免职”两类行政行为,提取出人物姓名、职务、机构、签署人及其分类、发表日期与公报页码等结构化字段,最终按年生成可审计的CSV表。当新增加一个联邦单位时,只需为其编写专属的正则模块与接口适配器,即可复用整套采集与解析管线,从而确保数据收集流程具备可扩展性与一致性。
特点
该数据集的核心特色在于其高层级的结构化粒度与时空分析能力。每一条记录都关联着精确到日的发表日期、具体签署人及其层级分类(如州长、厅长、局长等1至12级),使得研究者不仅能量化某位政治人物任内的人事流动总量,还能计算净任命余额(任命减去免职),从而揭示行政周期中的权力巩固或机构重组迹象。例如,数据显示克劳迪奥·卡斯特罗在任期内录得57,498次人事变更,净增5,616个职位,而威尔逊·维策尔则净增2,710个。此外,数据集提供了签署人分类、机构名称与原始文本摘要,支持跨年度、跨机构的时序比对,并内置了重复入职检测与可疑名目过滤模块,从而为深度分析官僚体系稳定性与政治任命模式奠定了坚实基础。
使用方法
使用该数据集进行实证研究时,可遵循明确的技术流程。用户需在配备Python环境的系统中安装requirements.txt中列出的Docling与spaCy依存库,并下载葡萄牙语语言模型pt_core_news_sm。运行主脚本main.py时,它自动按最新到最旧的顺序遍历IOERJ日历,执行PDF下载、Markdown转换与文本解析,最终在saida/UF/目录下输出按年度组织的CSV文件。若要执行高阶时序分析,可调用analise_temporal/analisar_movimentacoes.py脚本,该脚本会加载已完成年份的标记文件,生成每位政治人物的人事流动月度时间序列图,计算净任命余额,并输出人员回任率、可疑名称列表等衍生指标。用户还可通过--marco-governo参数手动注入政权更迭时间点来评估周期性影响。所有配置参数(如OCR回退、Docling分块大小、spaCy验证模式)均封装在diarios_oficiais/config.py中,允许灵活调整采集与解析行为而无需修改核心逻辑。
背景与挑战
背景概述
该数据集名为“exoneracoes_nomeacoes_dou”,创建于近年,由巴西研究团队构建,旨在系统化提取巴西官方公报中发布的政府官员任免行为数据。核心研究问题聚焦于如何将非结构化的官方公报文本转化为可量化、可追溯的历史记录,以支持公共行政透明度、政治周期分析与制度问责。数据集最初聚焦于里约热内卢州,从2005年至今的在线官方公报入手,运用Docling工具将PDF转换为Markdown,并利用正则表达式与spaCy自然语言处理模型识别“任命”与“免职”两类关键行为。该项目的影响力体现在为新闻调查、历史研究与公民监督提供了结构化数据基础,并已初步揭示州行政权力内部的显著人事流动模式,例如高管任免集中度高、换届周期波动明显等。未来计划扩展至其他巴西联邦单位,形成统一的全国性公共人事变动数据库。
当前挑战
该数据集面临的核心挑战包括:第一,所解决的领域问题在于巴西官方公报数据分散、格式不一、缺乏统一标准,传统的文本解析难以自动化提取精确的人事变动信息,且公报中部分历史版本(如2008年以前的)可能仅以影像或非标准化格式存在,增加了数据获取难度。第二,构建过程中遇到的挑战涉及解析的启发式本质难以保证100%准确,例如官员姓名、职务、机构等实体识别易受拼写变体、缩写规则与排版混乱影响;第三,跨州扩展时各州公报的结构差异要求为每个新来源单独设计正则规则与解析逻辑,维护成本高;第四,数据质量校验依赖人工抽样与领域知识,自动化置信度评估体系尚未完善,导致决策支持存在潜在偏差。此外,任期重叠、临时任命等特殊情景的歧义性也增加了事件分类的复杂性。
常用场景
经典使用场景
exoneracoes_nomeacoes_dou数据集的核心应用在于构建巴西官方公报中人事任免行为的历史档案库。研究者可借助该数据集系统性地追踪行政人员的入职与离职记录,通过解析《里约热内卢州官方公报》的电子版内容,将分散在历年版面中的‘任命’与‘罢免’条款转化为结构化的机器可读数据。这一过程涵盖了从PDF文档向Markdown文本的转换、基于正则表达式的关键信息抽取,以及按年度生成可验证的CSV表格,从而为后续的量化分析奠定坚实的数据基础。
实际应用
在实务层面,exoneracoes_nomeacoes_dou为公共部门的透明化监督与人才管理提供了全新的分析维度。记者与非营利组织可依托该数据追踪特定政府任期内的职位周转率,识别异常集中的任免高峰,从而为报道行政效率或揭露可能的裙带关系提供证据支撑。政府内部的人事部门则可借助该数据集的历史轨迹,优化岗位配置决策,例如基于历史更替频率预判关键岗位的人才流失风险,或评估不同管理层级在机构重组后的人员稳定周期。
衍生相关工作
围绕该数据集已衍生出一系列具有方法论价值的拓展工作。其中,分析脚本中实现的‘净余额’指标(任命数减去罢免数)可独立用于衡量行政首脑任期内的人事扩张或收缩策略。此外,研究社区基于该管道开发了针对各州官方公报的差异化解析模块,推动形成了跨联邦单位的人事数据比较框架。更深入的衍生工作包括利用自然语言处理模型(如spaCy)验证人名提取的置信度,以及构建‘罢免后重返’的关联网络,这些技术方案已成为巴西计算社会科学领域研究行政流动性的参考基线。
以上内容由遇见数据集搜集并总结生成



