PPTrace 公开数据
收藏github2026-04-27 更新2026-04-28 收录
下载链接:
https://github.com/dev-pptrace/pptrace_public_data_cn
下载链接
链接失效反馈官方服务:
资源简介:
本仓库包含从 pptrace.com 提取的公开数据,这是一个包含数百万人物及其关系的综合数据库。PPTrace 是一个协作平台,记录了政治领导人、商业家族、娱乐产业人物、皇室家族、历史人物、科学家和技术先驱等知名人物之间的关系。本仓库提供按语言(英文/中文)和类别组织的结构化数据供公众使用。
This repository contains public data extracted from pptrace.com, which is a comprehensive database housing millions of individuals and their interconnections. PPTrace is a collaborative platform that documents the relationships between well-known figures including political leaders, business families, entertainment industry personalities, royal families, historical figures, scientists, and technological pioneers. This repository provides structured data organized by language (English/Chinese) and category for public use.
创建时间:
2026-04-27
原始信息汇总
PPTrace 公开数据数据集概述
数据集简介
该数据集来源于 pptrace.com,是一个包含数百万人物及其关系的综合数据库,主要记录知名人物之间的关系网络。
数据来源与覆盖范围
数据集涵盖以下类别的人物关系:
- 政治领导人和政府官员
- 商业家族和企业家
- 娱乐产业人物
- 皇室家族和历史人物
- 科学家和技术先驱
- 其他类别
数据结构
数据按语言和类别组织,仓库结构如下:
- 英文数据:包含 British Leaders、Chinese High Officials、Entertainment Industry、Japanese Leaders、United States Leaders 等目录
- 中文数据:包含 中共政治局家族、中国高官、娱乐圈 等目录
数据格式示例
以 刘少奇_家族.json 文件为例,数据结构包含:
nodes(节点数组)
每个节点代表一个人物,包含以下字段:
- 多语言姓名:
nameEn、nameZh、nameZhhans、nameJa、nameKo、nameFr、nameRu、nameAr等 - 多语言简介:
descEn、descZh、descZhhans、descJa等 - 基本信息:
birthday(出生日期)、gender(性别)、nationality(国籍) - 标识信息:
uid(唯一标识符)、oid(外部ID)、source(参考来源链接) - 其他信息:
image(人物图片链接)、relationCount(关系数量)、nativeName(原名)、lastModifier(最后修改者)、modified(修改时间)、protectedLevel(保护等级)
edges(边数组)
每条边表示两个人物之间的关系,包含:
source:源节点UIDtarget:目标节点UIDrelation:关系类型(如 SPOUSE)
使用说明
- 数据免费使用,可用于研究、分析或其他目的
- 可直接在 GitHub 浏览数据,或克隆/下载仓库
- 引用信息时请注明出处
- 数据会定期从 pptrace.com 更新
贡献方式
如需添加新人物或关系、更新信息或纠正错误,请访问 pptrace.com 进行编辑和贡献。
许可说明
数据按原样提供供公众使用,对于关键应用请独立验证信息。
搜集汇总
数据集介绍

构建方式
PPTrace公开数据源于同名协作平台,该平台汇聚了涵盖政治、商业、娱乐、皇室、科学等多个领域的知名人物及其关系信息。数据以JSON格式存储,通过节点和边结构构建人物关系网络。每个节点包含人物的多语言姓名、出生日期、简介、国籍、来源链接等丰富属性,而边则定义了人物之间的具体关联类型,如配偶关系。数据按英文和中文分列,并进一步细分为不同类别,如“中国高官”或“British Leaders”,便于按需检索。仓库定期从pptrace.com同步更新,确保信息的时效性和完整性。
特点
该数据集最显著的特点是其全面性与结构化多样性。它囊括了从政治领袖到娱乐明星的广泛人物,覆盖多种语言和文化背景,为跨学科研究提供了深厚基础。采用图数据库式的节点-边设计,使得人物关系清晰可溯,每个节点均附有唯一的uid标识符和详尽的元数据,如修改时间、保护等级以及引用来源,保障了数据的可追溯性与可靠性。此外,数据完全免费开放,支持学术分析、知识图谱构建与可视化应用,尤其便于历史学家和数据科学家进行深入探索。
使用方法
使用者可通过GitHub仓库直接浏览或下载数据,将其克隆至本地环境进行集成。JSON格式的文件可直接被编程语言解析,适用于构建知识图谱、开发可视化工具或进行历史关系分析。例如,研究者可针对特定家族或群体,加载对应的JSON文件,利用节点和边的信息绘制人物亲缘网络。引用相关数据时,建议注明源自pptrace.com。对于希望贡献或修正数据者,需访问原始平台进行编辑,而不应直接修改本仓库中的文件。
背景与挑战
背景概述
PPTrace 公开数据是一个协作构建的多领域人物关系知识图谱,由 PPTrace 平台于近年推出,核心研究团队致力于整合全球知名人物及其复杂的社会网络。该数据集覆盖政治领袖、商业家族、娱乐人物、皇室成员、科学家等多元类别,以结构化 JSON 格式提供多语言信息,依托维基百科与 Wikidata 等权威来源。PPTrace 的出现为知识图谱构建、社会网络分析、历史研究及跨文化比较提供了宝贵的资源,尤其在名人关系挖掘与家族谱系重建方面展现了显著影响力,推动了人物关联数据的开放共享与多学科交叉应用。
当前挑战
PPTrace 数据集面临的核心挑战包括:领域问题方面,人物关系数据往往源于公开资料,信息碎片化且缺乏统一标准,导致关系类型的准确性与一致性难以保证;跨语言描述存在歧义,如角色定义因文化差异而不同,增加了知识融合的复杂度。构建过程中,数据采集依赖众包编辑与自动抽取,质量审核机制薄弱,易引入重复、错误或过时条目;隐私与伦理边界模糊,部分人物的敏感信息(如历史领导人原配)的公开性存疑;此外,节点间关系如“SPOUSE”的时效性验证困难,且图谱维护依赖人工更新,难以高效应对海量动态数据的实时同步需求。
常用场景
经典使用场景
PPTrace公开数据集在人类社会关系网络研究领域具有独特的价值。其核心应用场景聚焦于构建跨越政治、商业、文化等多维度的家族与人物关系图谱,尤其适用于对中国及全球政治领袖、商业家族、娱乐产业人物等复杂关系网络的深度挖掘与可视化分析。研究人员可基于该数据集中结构化的节点(人物)与边(关系)信息,开展针对特定人物家族谱系、权力传承脉络、商业联姻网络等主题的定量与定性研究,从而揭示精英群体中潜在的社会资本流动与权力结构演化规律。
实际应用
在实际应用层面,PPTrace数据集展现出多领域的适配性。新闻媒体与内容制作机构可利用其对历史人物或当代政治商业领袖的家族背景进行快速核查,提升报道的准确性与深度;教育科技领域可将其融入互动式历史教学工具,通过可视化图谱帮助学生直观理解人物关系的脉络;此外,智库与政策研究机构可借助该数据集的国际化视野及系统性人物关系链,辅助分析地缘政治博弈中的家族利益关联,为决策提供参考。其免费开放的特性尤其有利于非营利性研究与公众史学项目的推进。
衍生相关工作
基于PPTrace公开数据,学术界与工业界已衍生出若干经典工作。在知识图谱构建领域,研究者利用其多语言节点与对齐的Wikidata标识符,开发出面向东亚政治家族的自动关系推理算法;在可视化分析方向,有团队基于该数据集创建了交互式中国政治精英家族谱系墙,实现了跨越数代人的关系追溯与交互式探索;此外,在社会网络分析领域,相关研究通过提取该数据中的‘中共政治局家族’与‘商业家族’子图,构建了权力—资本联姻网络模型,为理解中国特定时期的精英阶层结构提供了量化工具。
以上内容由遇见数据集搜集并总结生成



