five

Epstein Files

收藏
github2026-02-17 更新2026-02-18 收录
下载链接:
https://github.com/Ringmast4r/Epstein
下载链接
链接失效反馈
官方服务:
资源简介:
该仓库监控了DOJ发布的Epstein文件,包含12个数据集,总计约931,000个PDF文件,大小约360GB。这些数据集包括FBI 302s、警察报告、电子邮件、私人通信、DOJ内部文件、图像、视频、飞行清单、财务记录和扣押记录等。

This repository monitors the Epstein documents released by the Department of Justice (DOJ). It contains 12 datasets, totaling approximately 931,000 PDF files with a combined size of around 360 GB. These datasets cover a wide range of materials including FBI 302 reports, police reports, emails, private communications, internal DOJ documents, images, videos, flight manifests, financial records, and seizure records, among others.
创建时间:
2026-02-16
原始信息汇总

数据集概述

数据集基本信息

  • 数据集名称:Epstein Files
  • 数据来源:美国司法部(DOJ)公开的爱泼斯坦案相关文件
  • 数据总量:约931,000个PDF文件
  • 数据总大小:约360 GB
  • 数据集数量:12个独立数据集
  • 首次公开日期:2025年12月19日
  • 主要数据转储日期:2026年1月30日(约350万页)
  • 受害者代表人数:200多名
  • 完全涂黑页面数:500多页

数据集内容与结构

12个数据集详情

数据集编号 文件数量 大小 发布日期 主要内容
1 约3,150 1.23 GB 2025年12月19日 FBI 302报告、警方报告
2 约600 630 MB 2025年12月19日 FBI 302报告、警方报告
3 约49+ 595 MB 2025年12月19日 FBI 302报告、警方报告
4 约200 351 MB 2025年12月19日 FBI 302报告、警方报告
5 约150 61 MB 2025年12月19日 FBI 302报告、警方报告
6 12 51 MB 2025年12月19日 FBI 302报告、警方报告
7 16 97 MB 2025年12月19日 FBI 302报告、警方报告
8 约11,000 10.7 GB 2025年12月19日 FBI 302报告、警方报告
9 533,786 约143 GB 2026年1月30日 电子邮件、私人信件、司法部内部文件
10 50,403 78.6 GB 2026年1月30日 来自爱泼斯坦房产的18万张图片和2千个视频
11 331,655 25.5 GB 2026年1月30日 飞行记录、财务记录、扣押记录
12 约150 114 MB 2025年12月19日 后期提交文件、补充材料

数据类别

  • 调查文件:FBI 302报告、警方报告
  • 通信记录:电子邮件、私人信件
  • 内部文件:司法部内部文件
  • 多媒体证据:图片、视频
  • 行程记录:飞行记录、财务记录、扣押记录

项目功能与工具

核心功能

  • 自动监控:每6小时自动监控司法部爱泼斯坦文件索引
  • 变更检测:检测新添加的文件、被静默删除或更改的文件、以及新出现的数据集
  • 变更日志:维护所有检测到的变更的运行日志
  • 索引维护:仅存储清单/索引,不存储PDF文件本身

交互式数据可视化工具

  • 交互式飞行地图:包含1,708次航班、135个机场、138名乘客,可按姓名、日期、机场筛选
  • 乘客网络图:使用D3.js绘制的力导向图,展示138名乘客之间的约500种联系
  • 人物档案:包含1,416名被点名个人的可搜索目录,包含飞行历史、联系和简介
  • 房产时间线:展示5处房产(小圣詹姆斯岛、棕榈滩、纽约市、巴黎、佐罗牧场)的访问历史、主要访客和时间线
  • 航线分析:展示热门航线、年度趋势、月度热力图和飞机分类,支持日期范围筛选

数据获取与处理

监控机制

  • 监控脚本tools/monitor.py
  • 执行频率:每6小时通过GitHub Action运行
  • 监控步骤
    1. 检查每个数据集的司法部列表页面
    2. 检查当前12个数据集之外的新数据集
    3. 通过HEAD请求抽查清单中的随机文件
    4. manifests/中存储的清单进行比较
    5. 将所有变更记录到CHANGELOG.md
    6. 如有变更则自动提交

初始索引构建

bash pip install -r tools/requirements.txt python tools/monitor.py --seed

项目背景与现状

  • 司法部限制:2026年2月11日,司法部移除了所有批量下载链接,用户只能逐个下载PDF文件
  • 受害者隐私问题:2026年2月1日,200多名受害者的律师要求联邦法官关闭司法部爱泼斯坦网站,称其泄露了受害者姓名和未涂黑的年轻女性裸体图像
  • 政治反应:2026年2月10日,众议员Ro Khanna在众议院宣读了未涂黑文件中的6个名字,称这些人“很可能被牵连”
  • 后续影响:文件公开后,高盛首席法务官Kathryn Ruemmler于2026年2月12日宣布辞职,因文件显示她是爱泼斯坦2019年被捕后联系的三人之一

数据来源

  • 主要来源:https://www.justice.gov/epstein
  • 法律依据:Epstein Files Transparency Act (PL 119-38)
  • 社区下载工具:https://github.com/Surebob/epstein-files-downloader
  • 社区存档:https://github.com/yung-megafone/Epstein-Files
搜集汇总
数据集介绍
构建方式
在司法数据公开的背景下,Epstein Files数据集通过自动化监控机制构建而成。该机制每六小时扫描美国司法部发布的埃普斯坦案件文件索引,持续追踪约九十三万份PDF文档的动态变化,涵盖新增、移除或修改的文件记录。初始索引通过手动种子脚本从零生成,并依托GitHub Actions实现定期比对与更新,所有变更均被系统记录于日志之中,从而确保数据集的完整性与时效性。
特点
该数据集的核心特征在于其多维度的结构化呈现与深度关联分析。它不仅整合了飞行日志、财务记录、邮件通信及物证影像等十二类原始文档,更通过交互式可视化工具将数据转化为洞察:航班地图动态展示一千七百余次飞行的时空轨迹,社交网络图揭示一百三十八名乘客间的复杂关联,人物档案库收录一千四百余名个体的详尽信息。这些工具共同构建了一个立体、可探索的数据生态系统,极大提升了信息检索与模式发现的效率。
使用方法
研究者可通过本数据集提供的交互式界面进行多维度探索。用户能够在地图视图中筛选特定航班或机场,在网络图中点击节点追溯人物关联,或在人物档案库中按类别检索个体信息。对于深度分析,项目开源了全套数据处理脚本,支持本地部署与自定义扩展。数据集不存储原始PDF,而是维护文件清单与元数据,用户需结合外部下载工具获取完整文档,并遵循司法数据使用的伦理与法律边界。
背景与挑战
背景概述
Epstein Files数据集源于美国司法部于2025年12月19日启动的公开披露计划,旨在响应《爱泼斯坦文件透明法案》的立法要求,核心研究问题聚焦于揭示全球性儿童性贩卖网络的运作机制与涉案人员网络。该数据集由司法部主导发布,涵盖了约93.1万份PDF文件,总计约360GB的庞大体量,内容涉及联邦调查局调查报告、警方记录、电子邮件通信、飞行日志、财务文件及财产影像资料等多维度证据。其影响力不仅限于司法调查领域,更为社会学、网络分析与公共政策研究提供了前所未有的实证基础,推动了关于权力滥用、受害者隐私保护与司法透明度的跨学科讨论。
当前挑战
该数据集所针对的领域问题在于如何从海量非结构化文档中提取关联性证据以映射犯罪网络,其核心挑战包括:多模态数据(文本、图像、视频)的融合分析、实体识别与关系网络的自动化构建,以及时间序列事件的重建。在构建过程中,司法部移除了批量下载链接,迫使研究者必须逐一下载93.1万份独立PDF文件,极大增加了数据获取与整理的难度;同时,文件存在大量涂黑页面与未充分编辑的受害者隐私信息,导致数据完整性受损与伦理风险并存。此外,数据动态更新与监控机制需持续应对官方对文件的隐匿性修改,进一步提升了长期研究的可持续性挑战。
常用场景
经典使用场景
在犯罪学与司法透明度研究领域,Epstein Files数据集常被用于分析大规模性贩运网络的运作模式。研究者通过其包含的飞行日志、财务记录与通信文件,构建犯罪网络的拓扑结构,揭示涉案人员的社交关联与活动轨迹。这类分析不仅深化了对有组织犯罪的理解,也为司法取证提供了数据驱动的洞察。
实际应用
在实际应用中,该数据集支持调查记者与司法监督机构进行证据链重建。例如,交互式飞行地图与乘客网络可视化工具,帮助公众直观追踪涉案人员的流动路径,强化社会对司法进程的监督,并促进全球反性贩运倡议的数据协作。
衍生相关工作
围绕该数据集衍生的经典工作包括开源社区开发的批量下载工具与自动化监控系统,如Surebob/epstein-files-downloader项目。这些工具通过技术手段对抗数据遮蔽,确保信息的持久可访问性,并催生了基于网络分析与时间序列的犯罪模式研究框架。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作