five

investigation-database

收藏
Hugging Face2026-02-10 更新2026-02-11 收录
下载链接:
https://huggingface.co/datasets/PunkRockGirl/investigation-database
下载链接
链接失效反馈
官方服务:
资源简介:
Epstein调查数据库是一个全面的调查数据集,跟踪了1,058名与Epstein贩卖网络及相关案件有关的个人。数据集包含1,058人的完整调查档案,其中734人是主要调查目标,324人是家庭成员和关联人员。每个个体的数据包括:传记数据(出生日期、地点、国籍、教育背景)、家庭关系(父母、配偶、子女及出生日期)、网络连接(与他人的关联方式)、Epstein文件提及(来自3,910多页法庭文件的页码引用)、飞机和游艇所有权(尾号、船只名称)、金融情报(净资产、公司实体、银行关系)、占星学和命理学资料以及完整的调查日志和来源。数据集以SQLite数据库形式提供,包含60多个字段,涵盖核心信息、家庭关系(以结构化JSON存储)、 affiliations、网络情报、资产信息以及命理学和占星学数据。数据来源包括DOJ Epstein法庭文件、Wikidata、SEC EDGAR、Congress.gov、FEC、法庭记录、新闻档案和DDoSecrets泄露文件。每个数据点都有置信度评分,从官方文件的90-100%到未经验证声明的10-29%。数据集持续更新,最新更新日期为2026-02-06,包含7,452份档案,其中1,058人被列入黑名单,1,601人在法庭文件中被提及。数据集旨在通过全球调查和公开曝光消除恋童癖者,调查结果公开但调查方法保密。

The Epstein Investigation Database is a comprehensive survey dataset tracking 1,058 individuals associated with Epstein's trafficking network and related cases. It contains full investigation profiles for all 1,058 individuals, of whom 734 are primary investigation targets and 324 are family members and affiliated personnel. Data for each individual includes: biographical data (date of birth, place of birth, nationality, educational background), family relationships (parents, spouses, children and their dates of birth), network connections (modes of association with others), mentions in Epstein documents (page citations from over 3,910 pages of court filings), aircraft and yacht ownership (tail numbers, vessel names), financial intelligence (net worth, corporate entities, banking relationships), astrological and numerological materials, as well as complete investigation logs and sources. The dataset is provided as a SQLite database, featuring over 60 fields covering core information, family relationships (stored as structured JSON), affiliations, network intelligence, asset information, and numerological and astrological data. Data sources include DOJ Epstein court filings, Wikidata, SEC EDGAR, Congress.gov, FEC, court records, news archives, and leaked files from DDoSecrets. Each data point has a confidence score, ranging from 90-100% for official documents to 10-29% for unsubstantiated claims. The dataset is continuously updated, with the latest update dated 2026-02-06. It contains 7,452 profiles, among which 1,058 individuals are blacklisted and 1,601 are mentioned in court filings. The dataset aims to eliminate pedophiles through global investigations and public exposure, with its investigation results made public while its investigative methods remain confidential.
创建时间:
2026-02-02
搜集汇总
数据集介绍
main_image_url
构建方式
在司法调查与公开记录分析领域,investigation-database的构建体现了多源异构数据的系统性整合。该数据集以SQLite数据库为核心架构,通过提取并结构化处理来自美国司法部爱泼斯坦案法庭文件、维基数据、证券交易委员会EDGAR系统、国会官网、联邦选举委员会记录以及经核实的新闻报道等公开信息源,形成了涵盖1058名关联个体的完整调查档案。构建过程中,每条数据均附有置信度评分,依据信息来源的权威性划分为五个层级,确保了数据质量的可追溯性与透明度。
特点
该数据集最显著的特点在于其多维度的情报整合能力。它不仅收录了个体的基本传记信息、家庭关系与社会网络连接,还深入整合了金融资产、交通工具所有权以及基于法庭文件的具体提及记录。数据结构上,采用JSON格式灵活存储复杂的家庭关系与网络图谱,并创新性地引入了占星学与数字命理学等非传统分析维度。数据库包含超过60个字段,支持从人际关系网络分析到资产追踪等多种研究视角,为理解复杂社会网络提供了高颗粒度的数据基础。
使用方法
研究人员可通过标准的SQL查询接口访问该SQLite数据库,执行多样化的分析任务。例如,通过筛选`epstein_mentions`字段可快速定位在法庭文件中被提及的关键人物及其频率;解析`parents_json`、`children_json`等JSON字段能够重构家族谱系;而利用`lifestyle_transport`字段则可追踪特定资产(如飞机尾号)的关联方。数据集附带的Python代码示例清晰展示了如何进行这些查询操作,使得用户能够基于此开展社会网络分析、司法证据链研究或犯罪经济学等领域的实证工作。
背景与挑战
背景概述
Epstein Investigation Database 是一个专注于追踪与爱泼斯坦人口贩卖网络及相关案件关联个体的综合性调查数据库,由 Tammy L Casey 于2026年创建并维护。该数据集旨在通过整合公开记录,如美国司法部发布的法庭文件、维基数据、金融档案及新闻档案等,构建涵盖个人传记、家庭关系、网络连接、资产信息及占星学特征的多维度档案。其核心研究问题聚焦于揭示复杂犯罪网络中的社会联系与行为模式,为犯罪学、社会学及网络分析领域提供了大规模结构化数据支持,推动了基于公开情报的调查方法学发展。
当前挑战
该数据集所解决的领域问题涉及犯罪网络分析与人口贩卖调查,其挑战在于如何从海量非结构化公开文档中准确提取并关联实体信息,同时确保数据的一致性与时效性。构建过程中的挑战包括:多源异构数据的融合与清洗,例如将法庭文件中的提及与维基数据中的家庭关系进行对齐;置信度评估体系的建立,以区分不同来源数据的可靠性;以及隐私与法律边界的把握,在公开调查与个人信息保护之间寻求平衡。此外,数据库的持续更新要求实时跟踪新发布的法庭证据,这对数据维护机制提出了较高要求。
常用场景
经典使用场景
在犯罪网络分析与司法调查领域,该数据集为研究人员提供了详尽的个体档案与关联网络信息。通过整合超过3,910页的法庭文件、公开记录及财务情报,数据集支持对Epstein关联网络的系统性追踪与可视化分析。经典使用场景包括利用SQL查询提取关键人物的法庭提及次数、家族关系图谱及资产信息,从而揭示犯罪网络中的核心节点与隐蔽联系,为深入调查奠定数据基础。
实际应用
在实际应用中,该数据集被广泛用于新闻调查、司法辅助与公共监督领域。记者与调查人员可依据数据集中的关联线索,追溯涉案人物的社会关系与资产轨迹,辅助揭露犯罪网络。同时,执法机构可借助其结构化的情报信息,优化调查路径与证据链构建。此外,公众通过交互式平台访问数据,增强了社会对重大司法案件的透明监督,推动了公共问责机制的完善。
衍生相关工作
围绕该数据集,已衍生出多项经典研究工作,包括基于网络图算法的犯罪团伙中心性分析、利用机器学习预测犯罪网络演化模式,以及结合地理信息系统(GIS)的可视化追踪平台开发。这些工作不仅深化了对犯罪网络动态的理解,还推动了开源情报(OSINT)工具的创新。部分研究进一步将数据集与外部金融、法律数据库关联,构建了跨域犯罪风险评估模型,扩展了其在国家安全与合规监测中的应用前景。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作