Datasets descritores dos Diários Oficiais do Brasil

github2021-08-11 更新2024-05-31 收录

下载链接：

https://github.com/datasets-br/diariosOficiais

下载链接

链接失效反馈

官方服务：

资源简介：

巴西官方公报描述符数据集，用于统一表征和识别官方公报、其章节及其内容。支持[OFICIAL.NEWS](https://github.com/okfn-brasil/oficial.news)应用和使用[LexML标准](http://projeto.lexml.gov.br/)的互操作性。

巴西官方公报描述符数据集，旨在对官方公报、其章节及其内容进行统一表征与识别。本数据集旨在支持[OFICIAL.NEWS](https://github.com/okfn-brasil/oficial.news)应用，并确保与[LexML标准](http://projeto.lexml.gov.br/)的互操作性。

创建时间：

2017-06-05

原始信息汇总

数据集概述

数据集名称

Datasets descritores dos Diários Oficiais do Brasil

数据集目的

本数据集旨在提供巴西官方公报的语义和术语控制，以实现对公报、其章节及其内容的统一特征化和识别。此外，该数据集还支持OFICIAL.NEWS应用程序，并促进使用LexML标准的互操作性。

数据集内容

数据结构

公报：定期发布的出版物集合，不一定是每日或定期。
分册：公报的每个发布单元，包含一组公报内容。
公报内容：可按章节（类别）分组，并可作为分册的一部分或单独发布（称为separatas）。

数据元素

唯一标识：分册和公报内容需要唯一标识。
上下文信息：对于separatas，需包含公报的管辖区域、分册的日期、内容发布机构及文档类型（如法律、法令、合同、招标等）。
章节信息：章节用于指定机构和文档类型，提取元数据（关于管辖区域、机构和类型）需要分析章节。

数据模型

数据集遵循特定的数据模型，详细描述了公报、分册、内容及其相互关系。具体模型可参考提供的链接图像。

数据集详情

更多关于数据集的详细描述，请参阅data/README.md文件。

搜集汇总

数据集介绍

构建方式

该数据集的构建基于巴西官方公报的描述符，旨在通过语义和术语控制实现公报、其章节及内容的统一特征识别。数据集涵盖了不同司法管辖区的官方公报，每个公报被视为一个独立的出版物，包含多个章节和具体内容。通过分析这些章节，提取与司法管辖区、发布机构和文档类型相关的元数据，确保数据的唯一性和可追溯性。

使用方法

该数据集的使用方法主要围绕其元数据结构和URN LEX标准展开。用户可以通过解析数据集中的元数据，识别不同司法管辖区的官方公报及其内容。数据集支持对公报章节的分类和文档类型的识别，适用于法律文本分析、信息检索和语义控制等应用场景。此外，数据集还可用于支持OFICIAL.NEWS等应用程序的开发，促进法律信息的互操作性。

背景与挑战

背景概述

Datasets descritores dos Diários Oficiais do Brasil数据集由巴西官方公报的描述符构成，旨在通过语义和术语控制，实现巴西官方公报及其章节和内容的统一识别与描述。该数据集由OKFN Brasil等机构开发，主要用于支持OFICIAL.NEWS应用程序，并促进基于LexML规范的互操作性。巴西官方公报作为政府发布法律、法规和其他重要文件的平台，其内容涵盖多个司法管辖区和权力机构，具有高度的复杂性和多样性。该数据集的创建为研究人员和开发者提供了一个标准化的框架，以便更好地理解和分析巴西官方公报的结构与内容。

当前挑战

该数据集面临的挑战主要集中在两个方面。首先，巴西官方公报的内容结构复杂，涉及多个司法管辖区和权力机构，如何实现统一的语义控制和术语标准化是一个关键问题。其次，构建过程中需要处理大量非结构化的文本数据，尤其是如何从PDF等传统格式中提取和解析内容，并确保数据的准确性和一致性。此外，不同司法管辖区的公报格式和内容差异较大，如何设计一个通用的数据模型以涵盖这些多样性，也是数据集构建中的一大挑战。

常用场景

经典使用场景

在巴西官方公报的语义控制和术语管理中，该数据集被广泛应用于统一识别和分类公报的各个部分及其内容。通过提供标准化的描述符，它支持了对公报内容的自动化处理和分析，特别是在法律文档的检索和分类中发挥了关键作用。

解决学术问题

该数据集解决了在法律信息检索和语义分析中的关键问题，如如何高效地识别和分类官方公报中的法律文档。通过提供统一的术语和分类标准，它促进了法律文档的互操作性和可访问性，为法律信息系统的开发提供了坚实的基础。

实际应用

在实际应用中，该数据集被用于支持巴西的官方新闻平台Oficial.news，帮助用户更有效地检索和理解官方公报中的信息。此外，它还支持了法律文档的数字化和自动化处理，提高了政府机构的工作效率和透明度。

数据集最近研究