Epstein Document Archive

github2026-02-20 更新2026-03-06 收录

下载链接：

https://github.com/kevinnbass/epstein-data

下载链接

链接失效反馈

官方服务：

资源简介：

包含来自DOJ Jeffrey Epstein文件发布的139万份OCR处理文件，提取的实体、文本嵌入、知识图谱和完整的管道来源。数据集包括文档、实体、文本块、嵌入、来源、人员注册表、知识图谱实体和关系、以及恢复的涂黑文本等多个层次。

This dataset contains 1.39 million OCR-processed documents sourced from the DOJ-released Jeffrey Epstein files, along with extracted entities, text embeddings, knowledge graphs, and complete pipeline provenance. It covers multiple data layers including full documents, entities, text chunks, embeddings, sources, person registries, knowledge graph entities and relationships, as well as recovered redacted text.

创建时间：

2026-02-20

原始信息汇总

Epstein Document Archive 数据集概述

数据集基本信息

数据集名称：Epstein Document Archive
数据来源：美国司法部（DOJ）根据《信息自由法》（FOIA）发布的Jeffrey Epstein相关文件，以及两个社区来源的集合。
数据规模：包含约139万份经过光学字符识别（OCR）处理的文档。
总数据量：压缩后约8 GB（Parquet格式，使用zstd压缩）。
访问地址：https://huggingface.co/datasets/kabasshouse/epstein-data
许可协议：CC-BY-4.0。底层文档为根据FOIA发布的美国政府记录。

数据内容与结构

数据集由多个独立的数据层（Layer）组成，用户可按需下载。

数据层	行数	下载大小	描述
`documents`	1,413,765	~800 MB	每份文档的完整文本及元数据
`entities`	8,542,849	~200 MB	提取的人物、组织、地点、日期等实体
`chunks`	2,039,205	~1.5 GB	用于RAG的约800个token的文本块
`embeddings_chunk`	1,956,803	~5 GB	每个文本块的768维Gemini嵌入向量
`provenance`	4.9M 行	~400 MB	完整的数据处理流水线审计追踪
`persons`	1,614	<1 MB	经过人工整理的人物注册表（含别名）
`kg_entities`	467	<1 MB	知识图谱实体
`kg_relationships`	4,190	<1 MB	知识图谱关系
`recovered_redactions`	39,588	~3 MB	从被涂黑页面中恢复的文本

源文档构成

文档来源于12个DOJ FOIA数据集发布以及两个社区来源的集合。

数据集	文件数	来源
DataSet 1	3,158	DOJ FOIA
DataSet 2	574	DOJ FOIA
DataSet 3	67	DOJ FOIA
DataSet 4	152	DOJ FOIA
DataSet 5	120	DOJ FOIA
DataSet 6	13	DOJ FOIA
DataSet 7	17	DOJ FOIA
DataSet 8	10,595	DOJ FOIA
DataSet 9	531,279	DOJ FOIA
DataSet 10	503,154	DOJ FOIA
DataSet 11	331,655	DOJ FOIA
DataSet 12	152	DOJ FOIA
FBIVault	22	FBI Vault FOIA
HouseOversightEstate	4,892	众议院监督委员会

总计：1,385,850份成功处理的文档 + 472份无法恢复的失败文档（记录于release/epstein_problems.json）。

OCR处理来源

使用了两种OCR来源：

Gemini 2.5 Flash Lite（848,228份文件）：主要OCR引擎。这些文档的ocr_source字段为NULL。
Tesseract (community)（537,622份文件）：来自社区仓库的补充。这些文档的ocr_source字段为"tesseract-community"。

核心字段说明

每份文档都有一个唯一的file_key（例如EFTA00000001）作为所有表格中的主标识符。

documents表的关键字段：

file_key：唯一标识符（EFTA编号）
dataset：源数据集（例如 "DataSet10"）
full_text：完整的OCR文本
document_type：分类类型（Email, Form, Letter, Photo等）
date：提取的日期（如果可用）
is_photo：文档是否为照片
ocr_source：NULL表示Gemini处理，"tesseract-community"表示社区OCR处理

已知问题

472个源PDF文件无法处理（损坏、为空或不可用）。这些文件记录在release/epstein_problems.json中，并附有DOJ下载链接。
DataSet 9（531K份文件）完全由社区使用Tesseract OCR处理，其质量低于Gemini。
部分文档被大量涂黑。recovered_redactions包含了从39,588个被涂黑页面中通过机器学习恢复的文本。
文本块的嵌入向量覆盖率为约96%（1,249个格式错误的嵌入向量被排除）。摘要嵌入向量因冗余已被移除——92%的文档只有一个文本块，使得摘要嵌入和文本块嵌入完全相同。

发布文件

本仓库的release/目录下包含小型参考文件：

epstein_problems.json：472个处理失败的记录及DOJ链接。
efta_dataset_mapping.json：EFTA文件键到DOJ URL的映射。
persons_registry.json：1,614条人工整理的人物记录。
knowledge_graph_entities.json：467个知识图谱实体。
knowledge_graph_relationships.json：4,190条知识图谱关系。
extracted_entities_filtered.json：过滤后的实体导出。
redacted_text_recovered.json.gz：39,588个被涂黑页面恢复的文本。
document_summary.csv.gz：文档元数据摘要。
image_catalog.csv.gz：照片/图像目录。

搜集汇总

数据集介绍

构建方式

在司法档案数字化与信息抽取领域，Epstein Document Archive 的构建体现了大规模文档处理的技术流程。该数据集源自美国司法部依据《信息自由法》发布的十二批原始文件，并整合了来自联邦调查局档案库及众议院监督委员会的两批社区补充材料，总计涵盖约一百三十九万份文档。构建过程首先通过光学字符识别技术将原始PDF文件转化为机器可读文本，其中主要采用Gemini 2.5 Flash Lite引擎完成大部分文件的识别，并对部分质量欠佳的文档辅以社区提供的Tesseract引擎进行补充处理。随后，利用自然语言处理技术从文本中自动抽取人物、组织、地点及日期等实体信息，并构建包含约八百个节点的知识图谱以揭示实体间关联。此外，文档被进一步切分为适合检索增强生成模型使用的文本块，并为每个块生成了高维语义向量嵌入，最终以分层、压缩的Parquet格式组织数据，确保用户可按需下载独立的数据层。

使用方法

针对法学、计算社会科学及历史档案分析等跨学科研究，该数据集提供了多样化的技术接入方式。研究人员可通过Hugging Face的datasets库以流式或批量方式加载数据，支持按数据集来源或文档类型进行灵活筛选。对于偏好数据库查询的用户，可直接使用DuckDB通过SQL语句远程查询存储在云端的Parquet文件，无需完整下载即可执行复杂的聚合与过滤操作。此外，项目附带的Python脚本能够将分层数据组装成本地SQLite数据库，用户可根据存储与计算资源选择核心文档层、包含文本块的扩展层或集成向量嵌入的完整数据库。这种多层次的使用接口设计，既支持轻量级的探索性分析，也满足了对全量数据进行复杂图分析与语义检索的深度研究需求。

背景与挑战

背景概述

Epstein Document Archive 数据集于2026年由研究人员Kevin Bass构建并发布，其核心研究问题聚焦于对美国政府依据《信息自由法》公开的杰弗里·爱泼斯坦相关司法文档进行大规模、结构化的信息提取与知识组织。该数据集整合了来自美国司法部十二次文件发布及社区补充的逾百万份文档，通过光学字符识别、实体抽取、文本嵌入及知识图谱构建等技术，旨在为法律分析、社会网络研究及历史档案数字化提供高质量、可计算的基础资源。它的出现显著推动了复杂司法档案的机器可读性研究，为深入理解特定社会事件背后的关联网络与信息模式提供了关键数据支撑。

当前挑战

该数据集致力于解决司法与历史档案领域中海量非结构化文本的信息抽取与关联分析挑战，具体包括从质量参差的扫描文档中准确识别实体、还原被涂黑文本，以及构建反映人物与组织关系的知识图谱。在构建过程中，面临多重技术障碍：部分源文件因损坏或无法获取导致处理失败；大量文档依赖社区提供的Tesseract光学字符识别，其质量低于主流的Gemini引擎，影响了文本准确性；此外，文档中广泛存在的编辑涂黑区域虽经机器学习技术尝试恢复，但信息完整性仍受制约。这些因素共同构成了数据集在数据质量、处理一致性与信息完备性方面的核心挑战。

常用场景

经典使用场景

在司法与公共事务分析领域，Epstein Document Archive 数据集为研究者提供了大规模、结构化的文档资源。其经典使用场景聚焦于利用自然语言处理技术，对超过百万份经OCR处理的司法文件进行深度挖掘。通过整合实体识别、知识图谱构建及文本嵌入等模块，该数据集支持对复杂法律文本中的关键人物、组织关系及时间线索进行系统性分析，为揭示文档间的潜在关联提供了坚实的数据基础。

解决学术问题

该数据集有效应对了司法文本分析中常见的学术挑战，例如大规模非结构化文档的信息提取与整合难题。通过提供完整的OCR文本、实体标注及知识图谱，它使得研究者能够深入探究法律文件中的语义关联、事件脉络及社会网络结构。这不仅推动了计算法学与数字人文领域的方法创新，也为理解大型公共事件中的文档证据体系提供了标准化、可复现的分析框架，具有重要的方法论意义。

实际应用

在实际应用层面，Epstein Document Archive 可服务于调查性新闻报道、司法审计及公共政策研究等多个领域。记者与研究人员能够借助其嵌入向量与知识图谱，快速定位相关证据链，追溯关键人物的交互网络；法律分析团队则可利用实体识别与文档分类功能，自动化梳理海量卷宗，提升证据整理的效率与准确性。此外，该数据集也为公众监督与历史档案的数字化保存提供了技术支持。

数据集最近研究