five

Corpus Anotado de Convênios do Diário Oficial da União Brasileiro(1996-2022)

收藏
Zenodo2025-12-01 更新2026-05-29 收录
下载链接:
https://zenodo.org/doi/10.5281/zenodo.17772231
下载链接
链接失效反馈
官方服务:
资源简介:
Este repositório contém o corpus anotado utilizado na dissertação de mestrado EUTINO JUNIOR VIEIRA SIRQUEIRA, referente à extração de informações em atos oficiais brasileiros. O corpus é composto por 192.900 excertos textuais provenientes do Diário Oficial da União (DOU), abrangendo o período de 1996 a 2022. Metodologia de Construção: A partir de um universo inicial de 554.101 convênios, foram filtrados 71.287 convênios que geraram as publicações aqui presentes. O dataset foi processado e salvo em formato binário .spacy, ideal para treinamento de modelos de NLP com a biblioteca spaCy. Organização: Para garantir reprodutibilidade experimental, os 1.930 arquivos originais (contendo 100 documentos cada) foram segregados aleatoriamente na proporção 70/30: Treino (70%): Utilizado para o ajuste de pesos dos modelos (arquivos train*.spacy). Teste (30%): Utilizado exclusivamente para avaliação final de performance (arquivos train*.spacy segregados).
提供机构:
Zenodo
创建时间:
2025-12-01
二维码
社区交流群
二维码
科研交流群
商业服务