five

Epstein Files: Structured Data Exports

收藏
github2026-02-13 更新2026-02-14 收录
下载链接:
https://github.com/rhowardstone/Epstein-research-data
下载链接
链接失效反馈
官方服务:
资源简介:
来自对218GB DOJ Jeffrey Epstein文件发布(所有12个数据集,519,548个PDF,993,406页)的法医分析的结构化数据导出。包括知识图谱、实体提取、图像目录、文档摘要、重建页面和EFTA到DOJ URL映射等。

Structured data exports generated through forensic analysis of the 218GB publicly released Department of Justice (DOJ) Jeffrey Epstein documents, comprising all 12 datasets, 519,548 PDF files, and 993,406 pages. The exported structured data includes knowledge graphs, entity extraction results, image catalogs, document summaries, reconstructed pages, and EFTA-to-DOJ URL mappings, among other relevant assets.
创建时间:
2026-02-11
原始信息汇总

Epstein Files: Structured Data Exports 数据集概述

数据集来源

该数据集源于对美国司法部(DOJ)发布的218GB Jeffrey Epstein相关文件(共12个数据集,519,548个PDF文件,993,406页)的法证分析,并进行了结构化数据导出。

数据内容与结构

数据集包含多个经过处理和提取的结构化数据文件,主要分为以下几类:

1. 知识图谱(人工整理)

  • knowledge_graph_entities.json:包含524条经过整理的实体记录。具体为489个人、12家空壳公司、9个组织、7处房产、4架飞机和3个地点。每个条目包含别名、元数据(职业、法律状态、提及次数)和实体类型。
  • knowledge_graph_relationships.json:包含2,096条实体间的关系记录。关系类型包括traveled_with、associated_with、owned_by、victim_of等,并包含权重、日期范围以及源/目标实体名称。

2. 实体提取(从107K原始数据中过滤)

  • extracted_entities_filtered.json:包含8,081条过滤后的实体提取记录。具体为3,881个姓名(出现在2个及以上文档中)、2,238个电话号码、1,489个金额、357个电子邮件和116个组织。每个条目包含其出现的EFTA文档编号。
  • extracted_names_multi_doc.csv:包含3,881个在多个EFTA文档中出现的姓名记录,并附有文档计数和示例EFTA引用。

3. 图像目录

  • image_catalog.csv.gz:完整的图像目录(gzip压缩),包含38,955条记录。字段包括:id、image_name、efta_number、page_number、people、text_content、objects、setting、activity、notable、analyzed_at。
  • image_catalog_notable.json.gz:包含已识别出人物或重要内容的图像(gzip压缩JSON),共38,864条记录,为便于管理截断了部分字段。

4. 文档摘要

  • document_summary.csv.gz:包含519,438条记录,为每个EFTA文档提供了涂黑摘要(gzip压缩)。字段包括:efta_number、total_redactions、bad_redactions、proper_redactions、has_recoverable_text、dataset_source。

5. 重建页面(高关注度)

  • reconstructed_pages_high_interest.json.gz:包含39,588条记录,为从涂黑下恢复出隐藏文本的页面(gzip压缩JSON)。字段包括efta_number、page_number、num_fragments、reconstructed_text、interest_score、names_found。兴趣分数越高表示恢复出的内容越重要。

6. EFTA至DOJ URL映射

  • efta_dataset_mapping.csv:提供了12个DOJ数据集中EFTA编号范围的映射关系及URL模板。
  • efta_dataset_mapping.json:相同映射关系的JSON格式,用于编程访问。
  • URL模式https://www.justice.gov/epstein/files/DataSet%20{N}/EFTA{XXXXXXXX}.pdf
  • 数据集映射表
    数据集 EFTA 起始 EFTA 结束 备注
    1 00000001 00003158
    2 00003159 00003857
    3 00003858 00005586
    4 00005705 00008320 间隙:5587-5704(文件存在于相邻数据集中)
    5 00008409 00008528 间隙:8321-8408(文件存在于相邻数据集中)
    6 00008529 00008998
    7 00009016 00009664 间隙:8999-9015(文件存在于相邻数据集中)
    8 00009676 00039023 最大的单一数据集
    9 00039025 01262781 标记为"REMOVED"但返回200
    10 01262782 02205654
    11 02205655 02730264
    12 02730265 02731783

完整数据库下载

所有源数据库均以压缩SQLite文件形式在v1.0 Release中提供:

  • full_text_corpus.db.gz (压缩810MB,未压缩2.2GB):包含519,548个文档、993,406页的全文及FTS5搜索索引。
  • redaction_analysis_v2.db.gz (压缩112MB,未压缩660MB):包含180万条涂黑记录、51.9万份文档摘要、3.9万个重建页面、10.7万个提取实体。
  • redaction_analysis_ds10.db.gz (压缩87MB,未压缩532MB):数据集10的深度分析(EFTA01262782-02205654)。
  • image_analysis.db.gz (压缩64MB,未压缩389MB):包含38,955张图像及AI生成的描述。
  • ocr_database.db.gz (压缩25MB,未压缩68MB):OCR提取数据。
  • 总计:约1.1GB(压缩)/ 约3.85GB(未压缩)。

关键技术与集成说明

  • 关键标识:EFTA编号是通用键,DOJ发布的每个文档都有一个。
  • 数据交叉引用:实体的efta_numbers数组提供了交叉引用(例如,某人出现在哪些文档中)。
  • 关系权重:知识图谱关系中的weight表示连接强度(越高表示记录越充分)。
  • 图像命名格式image_name格式为EFTA{number}_p{page}_i{index}_{hash}.png,可从文件名解析EFTA编号和页码。
  • 间隙EFTA处理:数据集之间的间隙编号(如5587-5704)对应的文件并未缺失,可通过相邻数据集的DOJ URL访问。

许可

该数据是对根据《Epstein Files Transparency Act》(公共法律 118-299)发布的政府公开记录的分析。基础文件是美国政府作品。此结构化数据被释放到公共领域。

搜集汇总
数据集介绍
main_image_url
构建方式
在司法透明化与数字取证领域,Epstein Files数据集通过系统化处理美国司法部公开的218GB原始PDF文件构建而成。该过程涵盖对519,548份文档的全面OCR文本提取,生成包含993,406页的全文语料库,并利用高级图像分析技术识别文档中的编辑痕迹与隐藏内容。数据集成阶段融合了人工核查与自动化筛选,从初始提取的107,422个实体中过滤出8,081个高质量实体,同时构建了涵盖524个实体与2,096条关联关系的知识图谱,确保了数据的可靠性与结构化程度。
特点
该数据集的核心特征在于其多层次的数据组织与丰富的元信息标注。知识图谱部分精心收录了人物、空壳公司、组织及资产等实体类型,并附有别名、职业属性与关联权重等深度元数据。实体提取模块通过多文档共现筛选机制,有效消除了OCR识别产生的噪声,提升了姓名、电话号码等关键信息的准确性。此外,数据集还包含基于AI生成的图像描述、文档编辑统计以及从编辑区域恢复的文本片段,为研究者提供了从宏观关联到微观证据的全方位分析视角。
使用方法
研究者可通过下载压缩的SQLite数据库文件直接访问结构化数据,利用EFTA编号作为统一标识符跨表关联文档、图像与实体信息。全文语料库支持FTS5索引检索,允许用户通过SQL查询快速定位特定内容;编辑分析数据库则提供了对隐藏文本的专项搜索功能。数据集附带的EFTA-DOJ映射表支持将任意文档编号解析为原始PDF的官方访问链接,便于溯源核查。开发者可依据知识图谱中的关系权重评估实体关联强度,或结合图像目录中的人物标注进行多模态分析,从而开展深入的司法取证或社会网络研究。
背景与挑战
背景概述
Epstein Files: Structured Data Exports 数据集源于对2024年美国司法部依据《爱泼斯坦文件透明法》公开的218GB杰弗里·爱泼斯坦相关文件的法证分析。该数据集由独立研究人员及开源社区协作构建,旨在将海量非结构化PDF文档转化为结构化数据,以支持对复杂社会网络、金融交易及法律证据的系统性研究。其核心研究问题聚焦于如何从大规模政府公开文件中提取实体、关系及隐藏信息,从而为调查性新闻、法学研究及计算社会科学提供数据基础。该数据集通过构建知识图谱、实体提取及文本重建,显著提升了相关档案的可访问性与分析深度,对理解权力网络与司法透明度议题具有重要影响。
当前挑战
该数据集致力于解决从大规模法律文档中提取结构化信息以揭示隐蔽社会网络与行为的挑战,具体包括:文档质量不均,如大量页面存在涂黑、损坏或低质量OCR识别,导致实体提取时噪声极高;数据规模庞大,涵盖超50万份PDF及近百万页面,对存储、索引与计算资源构成压力;信息碎片化与关联困难,需从分散证据中重建人物、组织及事件间的复杂关系。构建过程中的挑战则体现于:需开发定制化流水线处理异构文档(如文本、图像、涂黑区域),并采用多阶段过滤(如基于文档共现)以提升实体识别精度;同时,在遵守法律与伦理边界的前提下,平衡信息透明与隐私保护亦为持续难题。
常用场景
经典使用场景
在司法透明性与数字取证研究领域,Epstein Files: Structured Data Exports数据集为大规模文档分析提供了结构化基础。其最经典的使用场景在于支持研究者对超过50万份PDF文档进行系统性挖掘,通过知识图谱和实体提取功能,揭示人物、组织与事件之间的复杂关联网络。该数据集使得从海量非结构化司法文件中自动识别关键实体与关系成为可能,为深入理解案件脉络提供了数据驱动的视角。
实际应用
在实际应用中,该数据集支撑了多个司法调查与新闻调查项目,例如与EpsteinExposed.com平台的集成,协助记者和研究人员快速定位关键证据、追踪资金流向与人员动向。其结构化数据可直接用于构建交互式调查工具,帮助公众理解复杂案件细节,同时也为法律专业人士提供了高效的文档检索与关联分析能力,提升了大规模司法档案的可访问性与分析效率。
衍生相关工作
围绕该数据集衍生的经典工作主要包括基于其知识图谱的社会网络分析研究,以及利用实体提取和文本重建技术进行的自动化证据链构建。相关项目如Epstein-research系列报告,深入整合了数据源引用与法证分析,推动了开源调查方法的发展。此外,该数据集也激发了在文档红字恢复、大规模OCR后处理以及司法数据可视化等领域的技术创新与实践。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作