public-person

github2019-04-12 更新2024-05-31 收录

下载链接：

https://github.com/datasets-br/public-person

下载链接

链接失效反馈

官方服务：

资源简介：

识别独特的巴西公众人物的数据集。数据来源于巴西官方公报，以及其他多个来源如TSE等，数据格式包括CSV文件和SQL。

A dataset for identifying unique Brazilian public figures. The data is sourced from the Brazilian Official Gazette and multiple other sources such as TSE, with data formats including CSV files and SQL.

创建时间：

2017-03-17

原始信息汇总

数据集概述

数据集名称: public-person dataset

数据集目的: 识别独特的巴西公共人物

数据结构

数据集遵循以下语义结构：

名称 (name): 使用 schema.org 的 Person 和 name 定义，表示全名。
税务ID-CPF (vatID-cpf): 使用 schema.org 的 Person 和 vatID 定义，并特别指定为 Wikidata 中的 cadastroPessoasFísicas。

数据来源

数据主要来源于巴西的官方公报，这些公报提供了“有效公共名称”的使用许可。

数据准备

数据集的数据准备涉及以下源：

TSE - 高级选举法院：详细准备过程见 src/tse-README.md，生成 data/tse-*.csv 文件和/或 SQL。

数据格式

CSV文件的描述见 datapackage.json。

许可证

数据集根据公共领域贡献和许可证授权。

搜集汇总

数据集介绍

构建方式

public-person数据集的构建，是以巴西官方公报中公布的合法公共人物名称为主要来源，辅以Tribunal Superior Eleitoral（TSE）等多源数据。数据集采用schema.org的语义框架进行结构化，并以Wikidata作为补充信息源，形成具有完整姓名及vatID-cpf（巴西身份证号码）属性的记录。

特点

该数据集的特色在于，其通过整合官方公报与选举法院等权威数据源，确保了数据中公共人物身份的唯一性和准确性。此外，数据集遵循schema.org和Wikidata的语义标准，有利于促进数据间的互操作性，便于进行跨数据集的分析和比对。

使用方法

使用public-person数据集时，用户应遵循其维护者所采用的公共领域奉献条款。数据集以CSV和SQL格式提供，用户可依据[datapackage.json](datapackage.json)中的描述来理解数据结构，并据此进行相应的数据处理和分析操作。

背景与挑战

背景概述

public-person数据集是一项旨在识别独特巴西公职人员身份的研究成果。该数据集创建于近期，由专注于语义网和知识图谱的研究团队负责构建。其研究背景主要基于巴西官方公报中的有效公开姓名，结合schema.org和Wikidata的语义框架，以期为巴西公职人员的唯一身份识别提供可靠的数据支持。数据集的创建受到了巴西选举法院（TSE）的数据支持，并在学术和政府领域产生了重要影响，为相关研究提供了宝贵的资源。

当前挑战

在构建public-person数据集的过程中，研究团队面临了诸多挑战。首先，确保姓名的唯一性和准确性是一个重要挑战，因为这涉及到个人隐私和身份认证的问题。其次，整合来自不同来源的数据，如TSE的数据，需要解决数据格式、质量和完整性的一致性问题。此外，数据集的构建还需遵守相关法律法规，尤其是在处理个人身份信息时，确保符合隐私保护和数据安全的规范。

常用场景

经典使用场景

在公共人物识别的研究领域，public-person数据集以其独特的巴西公共人物标识功能，成为了一项不可或缺的资源。该数据集以schema.org和Wikidata的语义框架为支撑，提供了人物的完整姓名以及专属于巴西的vatID-cpf（税务登记号）信息，为研究工作提供了精准的数据基础。

实际应用

在现实应用中，public-person数据集被广泛运用于政府监督、选民数据库管理以及防止腐败和身份盗用的场合。它为政府和相关机构提供了一个强有力的工具，以维护社会公正和公民权益。

衍生相关工作

基于public-person数据集，学术界衍生出了一系列相关研究，包括但不限于巴西公共人物的社会网络分析、政治影响力评估以及身份认证技术的改进。这些研究进一步拓展了数据集的应用范围，推动了相关领域的学术进步和技术创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集