Corpus Anotado de Convênios do Diário Oficial da União Brasileiro(1996-2022)
收藏Zenodo2025-12-01 更新2026-05-29 收录
下载链接:
https://zenodo.org/doi/10.5281/zenodo.17772231
下载链接
链接失效反馈官方服务:
资源简介:
Este repositório contém o corpus anotado utilizado na dissertação de mestrado EUTINO JUNIOR VIEIRA SIRQUEIRA, referente à extração de informações em atos oficiais brasileiros. O corpus é composto por 192.900 excertos textuais provenientes do Diário Oficial da União (DOU), abrangendo o período de 1996 a 2022.
Metodologia de Construção: A partir de um universo inicial de 554.101 convênios, foram filtrados 71.287 convênios que geraram as publicações aqui presentes. O dataset foi processado e salvo em formato binário .spacy, ideal para treinamento de modelos de NLP com a biblioteca spaCy.
Organização: Para garantir reprodutibilidade experimental, os 1.930 arquivos originais (contendo 100 documentos cada) foram segregados aleatoriamente na proporção 70/30:
Treino (70%): Utilizado para o ajuste de pesos dos modelos (arquivos train*.spacy).
Teste (30%): Utilizado exclusivamente para avaliação final de performance (arquivos train*.spacy segregados).
提供机构:
Zenodo
创建时间:
2025-12-01



