Epstein DOJ Dataset 9

github2026-02-08 更新2026-02-05 收录

下载链接：

https://github.com/degenai/Dataset9

下载链接

链接失效反馈

官方服务：

资源简介：

Epstein DOJ Dataset 9是一个关于Epstein案件的数据集，包含了DOJ网站和86GB公共种子中的文件。README详细描述了数据集中三个缺失文件的情况，以及数据集在DOJ网站和种子文件中的覆盖范围。

Epstein DOJ Dataset 9 is a dataset focused on the Epstein case, comprising files sourced from the Department of Justice (DOJ) website and an 86 GB public torrent. The README provides a detailed account of the status of three missing files within the dataset, as well as the coverage scope of the dataset across the DOJ website and the torrent files.

创建时间：

2026-02-03

原始信息汇总

Epstein DOJ Dataset 9 - 数据集概述

数据集基本情况

数据集名称: Epstein DOJ Dataset 9
数据源: 美国司法部（DOJ）网站与一个86GB的公共种子文件。
总文件数量: 531,256个文件（来自种子文件）。
DOJ网站可访问文件数量: 77,766个文件（约占数据集的15%）。
关键发现: 三个文件在DOJ的分页列表中存在，但无法从DOJ网站或公共种子文件中访问。

关键发现详述

1. 三个缺失的文件

文件标识: EFTA00326497, EFTA00326501, EFTA00534391。
缺失状态: 在DOJ网站上显示为错误页面，在86GB的种子文件中不存在。
关联事件: 三个文件均围绕Karyna Shuliak于2016年4月离开美属维尔京群岛圣托马斯（爱泼斯坦小圣詹姆斯岛的出发地）这一事件。
跨批次缺失: 文件EFTA00326497（属于编校批次）和EFTA00534391（属于未编校批次）是同一份逻辑文档，在两个相隔约208,000个文件、完全独立的处理批次中均告缺失。
相邻内容: 缺失文件EFTA00534391紧邻一封爱泼斯坦的个人电子邮件，该邮件推荐了一本以同情恋童癖者为主角的小说，时间在该书公开发布前两天。

2. DOJ网站数据覆盖不全

网站问题: DOJ网站的分页系统存在缺陷，陷入无限循环，重复显示相同文件。
分页极限: 页面编号达到184,467,440,737,095,516（2^64 / 100）时，返回的内容与第0页相同。
影响: 仅依赖DOJ网站的用户将缺失数据集9中约85%的文件。

文件分布情况（基于DOJ网站分页）

页面范围	最小EFTA	最大EFTA	新增文件数
0-499	EFTA00039025	EFTA00267311	21,842
500-999	EFTA00267314	EFTA00337032	18,983
1000-1499	EFTA00067524	EFTA00380774	14,396
1500-1999	EFTA00092963	EFTA00413050	2,709
2000-2499	EFTA00083599	EFTA00426736	4,432
2500-2999	EFTA00218527	EFTA00423620	4,515
3000-3499	EFTA00203975	EFTA00539216	2,692
3500-3999	EFTA00137295	EFTA00313715	329
4000-4499	EFTA00078217	EFTA00338754	706
4500-4999	EFTA00338134	EFTA00384534	2,825
5000-5499	EFTA00377742	EFTA00415182	1,353
5500-5999	EFTA00416356	EFTA00432673	1,214
6000-6499	EFTA00213187	EFTA00270156	501
6500-6999	EFTA00068280	EFTA00281003	554
7000-7499	EFTA00154989	EFTA00425720	106
7500-8499	(无新增文件)
8500-8999	EFTA00168409	EFTA00169291	10
9000-9499	EFTA00154873	EFTA00154974	35
9500-9999	EFTA00139661	EFTA00377759	324
10000-10499	EFTA00140897	EFTA01262781	240
10500-12999	(无新增文件)

DOJ网站唯一文件总数: 77,766
种子文件总数: 531,256

仓库内容物

分析文档

ADJACENT_FILE_ANALYSIS.md - 对三个缺失文件的完整调查。
FINAL_REDDIT_POST.txt - 用于分发的总结。

清单文件

manifests/doj_dataset9_manifest.txt - 来自DOJ网站的77,766个文件清单。
manifests/torrent_manifest.txt - 来自种子文件的531,256个文件清单。
manifests/doj_not_in_torrent.txt - 三个缺失文件的清单。
manifests/pagination_index.json - 完整的分页结构。

脚本工具

scraper/scrape_doj_manifest.py - 顺序分页爬虫。
scraper/exploration_probe.py - 随机页面探索工具。
scraper/find_exact_end.py - 用于查找分页极限的二分搜索工具。
scraper/mitnick_probe.py - 基于模式的探索工具。

验证方法

检查缺失文件: 尝试访问DOJ提供的文件链接（例如 https://www.justice.gov/epstein/files/DataSet%209/EFTA00326497.pdf）。
获取种子文件: 确认文件EFTA00326497、EFTA00326501、EFTA00534391不存在。
查看相邻文件: 获取缺失文件编号前后的文件以查看Shuliak旅行链。
运行爬虫: 使用提供的脚本复现从DOJ分页获取77,766个文件的结果。
比较清单: 对比doj_dataset9_manifest.txt与torrent_manifest.txt。

结论

三个文件的缺失并非随机的技术故障。它们围绕单一事件聚集，出现在两个相隔约208,000个文件的独立处理批次中，并且其中一个缺失紧邻爱泼斯坦的个人通信。该模式与针对性移除行为一致。

分析日期: 2026年2月2-3日
许可证: Unlicense (公共领域)

搜集汇总

数据集介绍

构建方式

Epstein DOJ Dataset 9 的构建源于对司法部公开文件系统的系统性爬取与验证。通过编写专门的脚本工具，研究人员对数据集的分页结构进行了深度探测，识别出网站界面仅呈现约15%的文件，而完整数据需依赖一个独立的86GB种子文件获取。构建过程中，采用顺序抓取与随机探索相结合的方法，精确揭示了分页系统的技术缺陷——其存在无限循环的页面索引问题，导致大量文件无法通过官方渠道直接访问。此外，通过对比网站清单与种子清单，发现了三份特定文件在两者中均告缺失，从而触发了针对文件移除模式的进一步调查。

特点

该数据集的核心特征在于其揭示了公开数据发布中的不一致性与潜在的信息缺失。数据集包含超过53万份文件，但司法部网站仅能提供约7.7万份，暴露出官方发布渠道存在严重的技术限制与不完整性。尤为突出的是，三份特定文件在网站与种子中同时缺失，且它们均围绕同一关键事件——即与爱泼斯坦私人岛屿行程相关的人员移动记录。这些缺失文件分布在两个相隔约20.8万份文件的独立处理批次中，其中一份更紧邻爱泼斯坦的私人邮件，这种非随机的缺失模式暗示了可能存在针对性的文档处理行为，而非单纯的技术故障。

使用方法

研究人员或公众可通过多种途径验证并使用该数据集。首要步骤是直接访问司法部提供的文件链接，以确认特定文件的缺失状态。其次，下载并检视完整的86GB种子文件，通过对比官方清单与种子清单，可以精确识别所有无法访问的文档。数据集附带的脚本工具支持复现爬取过程，用户可运行Python脚本，重新生成网站文件清单，并与种子清单进行差异比较。对于深入分析，建议查阅相邻文件的内容，特别是围绕缺失编号的文档链，以理解其上下文关联。所有分析工具与清单文件均在代码库中公开，确保了研究过程的可重复性与透明度。

背景与挑战

背景概述

Epstein DOJ Dataset 9 是由美国司法部于2020年代后期公开的杰弗里·爱泼斯坦案件相关文件集合，旨在促进对金融交易、通信记录及法律证据的透明化研究。该数据集由独立研究团队通过系统化网络爬取与对比分析构建，核心聚焦于揭示文件处理过程中的异常模式，特别是针对特定事件关联文档的可访问性审查。其发布推动了数字取证与司法数据公开领域的交叉探讨，为理解大规模电子证据管理中的完整性挑战提供了实证基础。

当前挑战

该数据集首要挑战在于解决司法证据透明化与完整性验证问题，即如何在大规模电子文档中检测潜在的目标性文件缺失或系统性遮蔽。构建过程中，研究团队面临双重困难：一是司法部网站分页机制存在技术缺陷，导致公开接口仅能访问约15%的文件，需依赖独立种子文件补全数据；二是识别跨处理批次的特定文件缺失模式，需设计算法以排除随机损坏可能，并验证缺失文件围绕关键事件（如相关人员行程）的聚集性，这要求高精度的相邻文件分析与批量元数据比对。

常用场景

经典使用场景

在司法透明性与数字档案管理领域，Epstein DOJ Dataset 9数据集常被用于分析大规模政府文档发布过程中的完整性与一致性。研究者通过对比官方网站提供的有限文件与完整种子文件，识别出特定文档的缺失模式，从而揭示潜在的系统性数据遮蔽或选择性公开现象。这一场景典型地应用于检验公共记录的可访问性，尤其在涉及高度敏感案件时，数据集为独立审计提供了关键的数据基础。

解决学术问题

该数据集主要解决了数字时代司法档案公开的透明性与可信度问题。通过揭示美国司法部网站仅提供约15%的文件，而完整数据集通过种子文件可获得全部内容，这一发现挑战了官方数据发布的完整性假设。学术研究借此探讨政府机构在数据公开中可能存在的技术缺陷或人为干预，为信息完整性、数字治理与公共监督机制提供了实证分析框架，推动了相关法律与政策研究的发展。

衍生相关工作

围绕该数据集衍生的经典工作包括对大规模政府文档发布系统的逆向工程与漏洞分析。研究人员开发了专门的爬虫脚本与比对工具，以系统化地检测数据缺失模式，并公开了详细的清单与分析方法。这些工作不仅扩展了数字取证技术在公共记录审计中的应用，还促进了开源调查方法的发展，为后续类似数据集（如其他司法或政府档案）的分析建立了可复用的技术框架与理论模型。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集