Awesome Epstein Files

github2026-02-11 更新2026-02-12 收录

下载链接：

https://github.com/AGIBuilder/awesome-epstein-files

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个为Epstein Files研究人员准备的数据集和工具目录，包含多个数据集的具体信息，如大小、SHA1校验和以及磁力链接。

This is a dataset and tool directory prepared for researchers of the Epstein Files, which contains detailed information of multiple datasets such as their file sizes, SHA1 checksums, and magnet links.

创建时间：

2026-02-11

原始信息汇总

数据集概述：Awesome Epstein Files

数据集简介

本仓库是一个为研究人员提供的目录，汇集了与爱泼斯坦文件相关的数据集和工具。

数据集详情

该目录包含四个主要的数据集文件，具体信息如下：

数据集 9

版本 1 (v1): 不完整数据集。
- 大小: 45.6 GiB (48,995,762,222 字节)
- SHA1 校验和: 6ae129b76fddbba0776d4a5430e71494245b04c4
版本 2 (v2): 不完整，但比 v1 版本更大。
- 大小: 86.74 GiB

数据集 10

状态: 假定为完整数据集。
大小: 78.6 GiB (84,439,381,640 字节)
SHA1 校验和: e686d69249cc2b183e17dd6fa95f30a87ff5c8e3

数据集 11

状态: 已确认完整。字节大小和 SHA1 校验和与其他来源匹配。
大小: 25.6 GiB (27,441,913,130 字节)
SHA1 校验和: 574950c0f86765e897268834ac6ef38b370cad2a

数据集 12

状态: 完整。
大小: 114.1 MiB (119,634,859 字节)
SHA1 校验和: 20f804ab55687c957fd249cd0d417d5fe7438281

数据获取

所有数据集的下载链接均以 Base64 编码的磁力链接形式提供，用户需自行解码。
页面鼓励有能力者做种。

官方与第三方探索工具

官方搜索引擎

美国司法部网站上的官方搜索引擎: https://www.justice.gov/epstein/

第三方浏览器

以下工具允许用户通过预定义的过滤器/类别浏览或搜索数据（数据结构固定）：

jmail.world
- 网址: https://jmail.world/
- 描述: 如同登录爱泼斯坦的电脑一样浏览文件。
epstein-docs.github.io
- 网址: https://epstein-docs.github.io/
- 描述: 经过AI处理和编目，可按人物、地点、日期等浏览。
epstein-files.org
- 网址: https://epstein-files.org/
- 描述: 包含AI摘要。
Epstein Files collection on journaliststudio.google.com
- 网址: https://journaliststudio.google.com/pinpoint/search?collection=c109fa8e7dcf42c1
- 描述: 按人物/组织/地点/日期编目。
epsteingraph.com
- 网址: https://epsteingraph.com/
- 描述: 使用AI预处理数据的可视化。包括提及频率时间线可视化、文档分类和按相关性排序文档。
epsteinvisualizer.com
- 网址: https://epsteinvisualizer.com/
- 描述: 使用AI提取的实体连接关系图表示。

研究工具

以下工具允许用户基于特定的数据子集构建自己的可视化或报告（数据结构动态，由用户指定）：

edge.dog
- 网址: https://edge.dog
- 描述: 内置爱泼斯坦文件搜索的AI研究代理，允许基于查询构建知识图谱。
search.epstein.ninja
- 网址: https://search.epstein.ninja/
- 描述: 为数据集实现检索增强生成（RAG）的AI聊天工具。

API接口

提供对数据本身或其分析的程序化访问：

dugganusa
- 端点: https://analytics.dugganusa.com/api/v1/search?q=YOUR_QUERY&indexes=epstein_files
- 描述: 全文搜索API。
Apify scraper by lofomachines
- 网址: https://apify.com/lofomachines/epstein-files-scraper-api
- 描述: 多关键词搜索 + 从PDF中提取文本。
AI API by search.epstein.ninja
- 网址: https://search.epstein.ninja/
- 描述: 实现基于LLM的问答API，支持 x402。

搜集汇总

数据集介绍

构建方式

在数字取证与开源情报研究领域，数据集的构建往往依赖于对公开文档的系统性收集与整理。Awesome Epstein Files数据集的构建过程体现了这一特点，其核心内容源自司法部门公开的档案材料，并通过社区协作的方式进行汇总与验证。数据集以多个版本的形式存在，包括不完整与完整的数据包，每个版本均标注了具体的数据规模与校验哈希值，以确保内容的完整性与可追溯性。构建过程中采用了磁力链接的分布式共享方式，并辅以Base64编码以增强链接的稳定性，这种设计既便于研究者获取原始数据，也维护了数据源的可靠性。

特点

该数据集的特点在于其规模庞大且结构清晰，涵盖了从数十GB到上百MB不等的多个数据子集，每个子集均配有完整的元数据描述，如文件大小与SHA1哈希值，便于研究者进行完整性验证与对比分析。数据集内容主要涉及法律文档与通信记录，经过初步的人工与AI处理，部分版本已被第三方工具进行了实体提取、分类与可视化预处理。此外，数据集支持多种访问方式，包括原始文件下载、预构建的搜索引擎以及可编程API接口，为不同研究需求提供了灵活的数据支持。这种多层次的数据呈现方式，既保留了原始文档的完整性，也通过技术手段提升了数据的可探索性。

使用方法

研究者可通过多种途径利用该数据集进行深入的实证分析。首先，可通过解码提供的Base64磁力链接，使用BitTorrent客户端下载原始数据文件，进而开展本地化的文本挖掘与内容分析。其次，可利用官方或第三方开发的在线探索工具，如基于AI的搜索引擎与可视化平台，这些工具提供了按人物、地点、时间等维度进行浏览与检索的功能，能够快速定位关键信息。对于需要定制化分析的研究，可通过公开的API接口进行程序化访问，实现全文检索或构建特定的知识图谱。这种多元化的使用方法，兼顾了数据探索的便捷性与研究深度，适用于法律、社会学、网络分析等多学科领域。

背景与挑战

背景概述

在数字取证与开源情报研究领域，涉及敏感社会事件的档案数据集常成为学者与调查记者关注的焦点。'Awesome Epstein Files'数据集源于2024年初美国司法部公开的杰弗里·爱泼斯坦案件相关法律文件，由开源社区成员通过Reddit等平台协作整理与分发。该数据集旨在为研究人员提供结构化访问渠道，以探索案件中的网络关系、时间线脉络及潜在社会影响，其构建体现了公民社会对重大司法档案透明化的技术性响应。

当前挑战

该数据集核心挑战在于其处理的领域问题——对非结构化司法文档进行实体关系挖掘与事件重建时，面临文件格式混杂、语义模糊及隐私信息遮蔽等复杂性。构建过程中，数据收集依赖分布式网络存档，易出现版本碎片化与完整性验证困难；同时，原始PDF文档的光学字符识别误差、跨文档实体对齐偏差，以及法律文本特有的隐晦表述，均为自动化处理带来显著技术障碍。

常用场景

经典使用场景

在数字取证和开源情报分析领域，Awesome Epstein Files数据集为研究者提供了大规模文档集合，其经典使用场景在于通过自然语言处理和网络分析技术，对涉及复杂社会网络的非结构化数据进行深度挖掘。研究人员利用该数据集构建实体关系图谱，识别关键人物、地点与事件之间的关联模式，从而揭示潜在的社会动态与行为轨迹。

衍生相关工作

围绕该数据集衍生的经典工作包括基于人工智能的文档分类系统、动态知识图谱构建框架以及多语言实体识别模型。例如epstein-docs.github.io采用机器学习自动标注人物属性，epsteingraph.com则开发了时序感知的关系可视化算法。这些成果推动了司法文本挖掘领域向自动化、可解释性方向演进。

数据集最近研究