FULL_EPSTEIN_INDEX
收藏github2025-12-26 更新2025-12-27 收录
下载链接:
https://github.com/phelix001/epstein-network
下载链接
链接失效反馈官方服务:
资源简介:
这是一个全面的、统一的研究档案,汇总了与Jeffrey Epstein庄园及相关调查相关的公开发布内容。该存储库整合了众议院监督文件、司法部解密文件、多媒体证据等多种来源的数据,旨在促进开源情报分析和研究。
This is a comprehensive and unified research archive compiling publicly released content related to Jeffrey Epstein’s estate and its associated investigations. This repository integrates data from multiple sources including House Oversight documents, Department of Justice declassified files, and multimedia evidence, with the goal of facilitating open-source intelligence (OSINT) analysis and research.
创建时间:
2025-12-26
原始信息汇总
FULL_EPSTEIN_INDEX 数据集概述
数据集基本信息
- 许可证: MIT
- 语言: 英语 (en)
- 标签: epstein, epstein-data, dataset, fbi, journalism
内容警告
此存储库包含有关性虐待、剥削、人口贩卖和暴力的图像及高度敏感材料。同时包含未经证实的指控和原始证人陈述。强烈建议用户谨慎使用。
概述
这是一个全面、统一的研究档案库,汇总了与杰弗里·爱泼斯坦遗产及相关调查相关的公开发布材料。
数据特点
- 数据量巨大。
- 由于OCR扫描文件时存在错误,数据集中包含大量噪声(例如OCR从PDF图片中提取文字错误或字符识别失败)。
- 鼓励贡献、清理或添加数据。
数据范围与整合
本索引整合了以下公共发布材料,扩展了早期档案(如2025年11月众议院监督委员会的首次发布):
- 众议院监督委员会文件: 约20,000页电子邮件和遗产记录(2025年11月发布)。
- 司法部披露文件: 航班日志、通讯录(经编辑)以及“按摩师名单”。
- 多媒体证据: 联邦监狱局的视频片段和麦克斯韦认罪协议会议的录音。
- 联邦调查局、海关和边境保护局等其他政府机构的发布材料。
更新说明
本索引是一个动态档案库。随着政府机构解密和发布更多阶段的文件,它们将被处理、索引并添加到此存储库中。
数据组织目的
该存储库的组织旨在促进开源情报分析和研究。
重要提醒
请务必与原始文件进行交叉核对。
使用指南
该数据集旨在用于研究、调查性新闻和法律分析。访问此存储库即表示您同意以下道德准则:
用户责任
- 核实事实: 大部分数据由原始证据、笔记和未经证实的指控组成。未经证实,请勿将搜索结果作为既定事实呈现。
- 尊重隐私: 遵守源文件中所有编辑要求。请勿试图使用此数据对个人进行人肉搜索或骚扰。
- 维护受害者尊严: 以极其谨慎和尊重的态度对待所有关于潜在受害者的信息。
禁止用途
- 禁止用于微调: 请勿使用此数据集训练或微调生成式AI模型。在敏感法律问题上产生幻觉的风险过高。
- 禁止骚扰: 请勿使用此工具针对私人个体。
- 禁止商业利用: 此数据仅用于公共利益和教育目的。
数据来源
本索引汇总了以下公共领域的发布材料:
- 美国众议院监督与问责委员会(2025年11月12日发布)
- 美国司法部(第一阶段解密文件、航班日志、麦克斯韦认罪协议材料,2025年12月发布)
- 所有联邦调查局、边境巡逻队及其他政府机构的发布材料
法律与免责声明
- 免责声明: 此存储库是一个独立集合,并非美国政府的官方服务。
- 版权: 原始政府文件通常属于公共领域或根据合理使用原则为研究而发布。组织脚本和索引结构根据MIT许可证授权。
- 责任: FULL_EPSTEIN_INDEX的维护者不对底层文件拥有所有权,也不对数据的使用、误用或解释承担任何责任。用户全权负责遵守适用的法律和隐私法规。
交互式网络分析(2025年12月新增)
实时演示
- 交互式网络图链接: https://phelix001.github.io/epstein-network/epstein_network_timeline.html
- 功能: 点击任何节点可打开维基百科;使用时间轴滑块按年份(1994-2025年)筛选;悬停可查看每个人的详细信息。
数据集8分析的关键发现
从司法部数据集8(10,593个PDF)中提取了不当编辑的内容。这些文档使用了视觉覆盖层进行“编辑”,但未删除底层文本。
发现的隐藏内容:
- 提取了 936个唯一的电子邮件地址。
- 识别了 23,383个姓名。
- 发现了吉斯莱恩·麦克斯韦的个人邮箱:
gmax1@mindspring.com。 - 发现了2002年关于在秘鲁安排“女孩”的电子邮件链(文件:EFTA00011438)。
- 爱泼斯坦的性犯罪者登记表可完全提取(受害者年龄:14岁,16岁)。
- 发现了属于爱泼斯坦的 11个电子邮件地址,包括
LITTLESTJEFF@YAHOO.COM。 - 发现了加密通讯应用:Signal, Telegram, WhatsApp, Confide。
网络统计
| 指标 | 数值 |
|---|---|
| 已映射的个人 | 47 |
| 已记录的连接 | 112 |
| 已分析的文档 | 19,154 |
| 年份范围 | 1994-2025 |
网络中的类别
- 核心(红色): 杰弗里·爱泼斯坦,吉斯莱恩·麦克斯韦
- 共犯(橙色): 工作人员
- 受害者(紫色): 弗吉尼亚·朱弗,简·多伊
- 政治人物(蓝色): 安德鲁王子,比尔·克林顿,唐纳德·特朗普
- 法律界人士(黄色): 辩护律师,检察官,法官
- 家庭成员(橙色): 马克·爱泼斯坦,伊莎贝尔·麦克斯韦
- 关联人士(紫色): 斯坦·波廷格,胡安埃斯特班·加诺萨
- 金融机构(青绿色): 德意志银行
分析文件
| 文件 | 描述 |
|---|---|
epstein_network_timeline.html |
交互式可视化(在浏览器中打开) |
focused_entities.json |
包含连接的网络数据 |
dataset8_redacted_scan.json |
从数据集8提取的完整结果 |
dataset8_emails.csv |
提取的所有936个电子邮件 |
dataset8_all_names.csv |
所有姓名及文档来源 |
REDDIT_REPORT.md |
前50项发现报告 |
DATASET8_HIDDEN_CONTENT_REPORT.md |
技术分析 |
来源链接
| 来源 | 链接 |
|---|---|
| HuggingFace 数据集 | https://huggingface.co/datasets/theelderemo/FULL_EPSTEIN_INDEX |
| 原始文件(Google 云端硬盘) | https://drive.google.com/drive/folders/18tIY9QEGUZe0q_AFAxoPnnVBCWbqHm2p |
| 司法部信息自由法数据集 | https://www.justice.gov/archives/jm/foia-update-foia-contacts-department-justice |
| WikiEpstein | https://wikiepstein.com/ |
分析方法论
- 下载司法部信息自由法数据集1-8(约12.4 GB)。
- 使用pdfplumber从10,593个PDF中提取文本。
- 对电子邮件、姓名、电话号码进行模式匹配。
- 与已知个人进行交叉引用。
- 使用vis-network.js构建网络图。
编辑失败的原因
许多司法部文件使用了有缺陷的编辑方法:
- 在文本层上覆盖黑框。
- 未从PDF中删除底层文本。
- 通过复制/粘贴或程序化提取可揭示内容。 这是政府文件发布中的一个已知问题。
搜集汇总
数据集介绍

构建方式
在司法调查与公共档案研究领域,FULL_EPSTEIN_INDEX数据集通过系统整合多源公开文件构建而成。其核心方法在于聚合来自美国众议院监督委员会、司法部、联邦调查局及海关与边境保护局等政府机构陆续解密的档案,涵盖电子邮件、飞行日志、联系人名录及视听记录等多种形式。原始文件经过光学字符识别技术处理,尽管存在一定噪声,但通过脚本索引与结构化整理,形成了一个持续更新的统一研究档案库,支持对相关事件的开放式情报分析。
使用方法
针对敏感法律档案的研究,该数据集要求用户在严格遵循伦理准则的前提下使用。研究者可通过克隆代码库、配置虚拟环境并运行提取脚本,对PDF文件进行程序化文本挖掘,以获取邮件、姓名等关键信息。数据集附带的交互式网络图支持在浏览器中动态探索人物关系与时间脉络。用户须注意,所有发现均需与原始文件交叉验证,且不得用于训练生成式人工智能模型或任何形式的骚扰与商业利用。
背景与挑战
背景概述
FULL_EPSTEIN_INDEX数据集于2025年末由开源社区研究者构建,整合了美国众议院监督委员会、司法部等多部门公开的杰弗里·爱泼斯坦案相关档案。该数据集旨在为开源情报分析、调查新闻及法律研究提供一个统一的档案库,涵盖了电子邮件、飞行日志、录音录像等多媒体证据,跨越1994至2025年的时间范围。其核心研究问题聚焦于通过大规模数据聚合揭示案件关联网络,推动对性虐待、人口贩卖等犯罪行为的系统性调查,在公共安全与司法透明度领域具有显著影响力。
当前挑战
该数据集致力于解决复杂犯罪网络分析中的证据整合挑战,但面临多重困难:原始文档因光学字符识别错误引入大量噪声,影响数据准确性;司法部门使用的文本层覆盖式红移技术存在缺陷,导致敏感信息意外暴露,引发隐私与伦理争议。构建过程中,需处理数万页异构文档的标准化与索引,同时确保符合法律与伦理准则,避免对受害者造成二次伤害,这对数据清洗、验证及跨源交叉引用提出了极高要求。
常用场景
经典使用场景
在调查性新闻与开源情报分析领域,FULL_EPSTEIN_INDEX数据集为研究人员提供了一个整合多源政府公开文件的统一档案库。其经典使用场景聚焦于网络关系图谱的构建与分析,通过提取文档中隐藏的电子邮件地址、姓名及关联信息,研究者能够可视化核心人物、共犯、受害者及各类关联方之间的复杂联系,并利用时间轴工具追踪事件发展脉络,从而揭示性虐待、剥削与人口贩卖网络的结构与动态。
解决学术问题
该数据集主要解决了在敏感法律案件研究中,原始证据分散、格式不一且存在大量噪声信息所带来的挑战。通过聚合美国众议院监督委员会、司法部等多机构的解密文件,并利用技术手段提取失效遮盖下的文本内容,它为学术界提供了检验政府文件公开透明度、分析大规模性犯罪网络运作机制,以及探讨法律程序中证据处理漏洞的实证基础,对推动司法透明度、犯罪学与政治社会学研究具有深远意义。
实际应用
在实际应用中,FULL_EPSTEIN_INDEX被广泛用于支持调查性新闻报道、法律案件分析与公共政策倡导。记者借助数据集中的航班记录、通讯录和证人陈述,追踪关键线索并构建报道证据链;法律研究者则通过分析检方材料与法庭记录,评估案件处理流程与司法公正性。同时,该档案库也为倡导组织提供了推动立法改革、加强受害者保护的数据支撑,促进了公众对权力滥用与系统性漏洞的监督。
数据集最近研究
最新研究方向
在开源情报分析领域,FULL_EPSTEIN_INDEX数据集正推动着对敏感司法案件进行多模态数据整合与网络关系挖掘的前沿探索。该数据集整合了来自美国众议院监督委员会、司法部等多机构的解密文件,包括电子邮件、飞行日志及视听证据,为研究者提供了前所未有的综合分析基础。近期研究聚焦于利用计算文本分析技术,揭示文件中因技术缺陷而暴露的未完全遮蔽信息,例如通过提取底层文本层发现了大量隐藏的电子邮件地址与姓名,这促进了针对权力网络、金融流动及受害者关联的复杂网络建模。这些进展不仅深化了对案件背后社会结构的理解,也引发了关于政府文件脱敏标准与数据伦理的广泛讨论,对司法透明、新闻调查及数字人权研究产生了深远影响。
以上内容由遇见数据集搜集并总结生成



