five

Awesome Epstein Files

收藏
github2026-02-11 更新2026-02-12 收录
下载链接:
https://github.com/AGIBuilder/awesome-epstein-files
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个为Epstein Files研究人员准备的数据集和工具目录,包含多个数据集的具体信息,如大小、SHA1校验和以及磁力链接。

This is a dataset and tool directory prepared for researchers of the Epstein Files, which contains detailed information of multiple datasets such as their file sizes, SHA1 checksums, and magnet links.
创建时间:
2026-02-11
原始信息汇总

数据集概述:Awesome Epstein Files

数据集简介

本仓库是一个为研究人员提供的目录,汇集了与爱泼斯坦文件相关的数据集和工具。

数据集详情

该目录包含四个主要的数据集文件,具体信息如下:

数据集 9

  • 版本 1 (v1): 不完整数据集。
    • 大小: 45.6 GiB (48,995,762,222 字节)
    • SHA1 校验和: 6ae129b76fddbba0776d4a5430e71494245b04c4
  • 版本 2 (v2): 不完整,但比 v1 版本更大。
    • 大小: 86.74 GiB

数据集 10

  • 状态: 假定为完整数据集。
  • 大小: 78.6 GiB (84,439,381,640 字节)
  • SHA1 校验和: e686d69249cc2b183e17dd6fa95f30a87ff5c8e3

数据集 11

  • 状态: 已确认完整。字节大小和 SHA1 校验和与其他来源匹配。
  • 大小: 25.6 GiB (27,441,913,130 字节)
  • SHA1 校验和: 574950c0f86765e897268834ac6ef38b370cad2a

数据集 12

  • 状态: 完整。
  • 大小: 114.1 MiB (119,634,859 字节)
  • SHA1 校验和: 20f804ab55687c957fd249cd0d417d5fe7438281

数据获取

  • 所有数据集的下载链接均以 Base64 编码的磁力链接形式提供,用户需自行解码。
  • 页面鼓励有能力者做种。

官方与第三方探索工具

官方搜索引擎

  • 美国司法部网站上的官方搜索引擎: https://www.justice.gov/epstein/

第三方浏览器

以下工具允许用户通过预定义的过滤器/类别浏览或搜索数据(数据结构固定):

  1. jmail.world
    • 网址: https://jmail.world/
    • 描述: 如同登录爱泼斯坦的电脑一样浏览文件。
  2. epstein-docs.github.io
    • 网址: https://epstein-docs.github.io/
    • 描述: 经过AI处理和编目,可按人物、地点、日期等浏览。
  3. epstein-files.org
    • 网址: https://epstein-files.org/
    • 描述: 包含AI摘要。
  4. Epstein Files collection on journaliststudio.google.com
    • 网址: https://journaliststudio.google.com/pinpoint/search?collection=c109fa8e7dcf42c1
    • 描述: 按人物/组织/地点/日期编目。
  5. epsteingraph.com
    • 网址: https://epsteingraph.com/
    • 描述: 使用AI预处理数据的可视化。包括提及频率时间线可视化、文档分类和按相关性排序文档。
  6. epsteinvisualizer.com
    • 网址: https://epsteinvisualizer.com/
    • 描述: 使用AI提取的实体连接关系图表示。

研究工具

以下工具允许用户基于特定的数据子集构建自己的可视化或报告(数据结构动态,由用户指定):

  1. edge.dog
    • 网址: https://edge.dog
    • 描述: 内置爱泼斯坦文件搜索的AI研究代理,允许基于查询构建知识图谱。
  2. search.epstein.ninja
    • 网址: https://search.epstein.ninja/
    • 描述: 为数据集实现检索增强生成(RAG)的AI聊天工具。

API接口

提供对数据本身或其分析的程序化访问:

  1. dugganusa
    • 端点: https://analytics.dugganusa.com/api/v1/search?q=YOUR_QUERY&indexes=epstein_files
    • 描述: 全文搜索API。
  2. Apify scraper by lofomachines
    • 网址: https://apify.com/lofomachines/epstein-files-scraper-api
    • 描述: 多关键词搜索 + 从PDF中提取文本。
  3. AI API by search.epstein.ninja
    • 网址: https://search.epstein.ninja/
    • 描述: 实现基于LLM的问答API,支持 x402。
搜集汇总
数据集介绍
main_image_url
构建方式
在数字取证与开源情报研究领域,数据集的构建往往依赖于对公开文档的系统性收集与整理。Awesome Epstein Files数据集的构建过程体现了这一特点,其核心内容源自司法部门公开的档案材料,并通过社区协作的方式进行汇总与验证。数据集以多个版本的形式存在,包括不完整与完整的数据包,每个版本均标注了具体的数据规模与校验哈希值,以确保内容的完整性与可追溯性。构建过程中采用了磁力链接的分布式共享方式,并辅以Base64编码以增强链接的稳定性,这种设计既便于研究者获取原始数据,也维护了数据源的可靠性。
特点
该数据集的特点在于其规模庞大且结构清晰,涵盖了从数十GB到上百MB不等的多个数据子集,每个子集均配有完整的元数据描述,如文件大小与SHA1哈希值,便于研究者进行完整性验证与对比分析。数据集内容主要涉及法律文档与通信记录,经过初步的人工与AI处理,部分版本已被第三方工具进行了实体提取、分类与可视化预处理。此外,数据集支持多种访问方式,包括原始文件下载、预构建的搜索引擎以及可编程API接口,为不同研究需求提供了灵活的数据支持。这种多层次的数据呈现方式,既保留了原始文档的完整性,也通过技术手段提升了数据的可探索性。
使用方法
研究者可通过多种途径利用该数据集进行深入的实证分析。首先,可通过解码提供的Base64磁力链接,使用BitTorrent客户端下载原始数据文件,进而开展本地化的文本挖掘与内容分析。其次,可利用官方或第三方开发的在线探索工具,如基于AI的搜索引擎与可视化平台,这些工具提供了按人物、地点、时间等维度进行浏览与检索的功能,能够快速定位关键信息。对于需要定制化分析的研究,可通过公开的API接口进行程序化访问,实现全文检索或构建特定的知识图谱。这种多元化的使用方法,兼顾了数据探索的便捷性与研究深度,适用于法律、社会学、网络分析等多学科领域。
背景与挑战
背景概述
在数字取证与开源情报研究领域,涉及敏感社会事件的档案数据集常成为学者与调查记者关注的焦点。'Awesome Epstein Files'数据集源于2024年初美国司法部公开的杰弗里·爱泼斯坦案件相关法律文件,由开源社区成员通过Reddit等平台协作整理与分发。该数据集旨在为研究人员提供结构化访问渠道,以探索案件中的网络关系、时间线脉络及潜在社会影响,其构建体现了公民社会对重大司法档案透明化的技术性响应。
当前挑战
该数据集核心挑战在于其处理的领域问题——对非结构化司法文档进行实体关系挖掘与事件重建时,面临文件格式混杂、语义模糊及隐私信息遮蔽等复杂性。构建过程中,数据收集依赖分布式网络存档,易出现版本碎片化与完整性验证困难;同时,原始PDF文档的光学字符识别误差、跨文档实体对齐偏差,以及法律文本特有的隐晦表述,均为自动化处理带来显著技术障碍。
常用场景
经典使用场景
在数字取证和开源情报分析领域,Awesome Epstein Files数据集为研究者提供了大规模文档集合,其经典使用场景在于通过自然语言处理和网络分析技术,对涉及复杂社会网络的非结构化数据进行深度挖掘。研究人员利用该数据集构建实体关系图谱,识别关键人物、地点与事件之间的关联模式,从而揭示潜在的社会动态与行为轨迹。
衍生相关工作
围绕该数据集衍生的经典工作包括基于人工智能的文档分类系统、动态知识图谱构建框架以及多语言实体识别模型。例如epstein-docs.github.io采用机器学习自动标注人物属性,epsteingraph.com则开发了时序感知的关系可视化算法。这些成果推动了司法文本挖掘领域向自动化、可解释性方向演进。
数据集最近研究
最新研究方向
在数据新闻与开源情报领域,Epstein文件数据集正成为探索复杂社会网络与权力结构的前沿工具。研究者借助人工智能技术,如自然语言处理与知识图谱构建,对大规模文档进行实体识别、关系抽取与可视化分析,以揭示隐藏的人际关联与事件脉络。该数据集的应用不仅推动了数据驱动型调查报道的革新,还促进了公众对司法透明度与社会监督的讨论,成为数字时代下跨学科研究的重要案例。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作