five

Epstein Files Datasets 1–12

收藏
github2026-02-11 更新2026-02-06 收录
下载链接:
https://github.com/yung-megafone/Epstein-Files
下载链接
链接失效反馈
官方服务:
资源简介:
该仓库是美国司法部发布的Epstein Files数据集的社区镜像和索引项目,包含12个数据集,每个数据集的大小和可用性状态各不相同。目标是提供一个稳定的下载方法公共索引,以确保数据的长期可访问性。

This repository serves as a community mirror and indexing project for the Epstein Files dataset released by the United States Department of Justice. It includes 12 datasets, each with varying sizes and availability statuses. The goal of this project is to provide a stable public index and download mechanism to ensure the long-term accessibility of the data.
创建时间:
2026-02-01
原始信息汇总

数据集概述:Epstein Files Jan 31, 2026

数据集基本信息

  • 数据集名称:Epstein Files Jan 31, 2026
  • 发布机构:美国司法部
  • 发布日期:2026年1月30日
  • 项目类型:社区镜像与索引项目
  • 项目目标:为美国司法部发布的Epstein Files数据集提供稳定的公共下载方式索引,以应对原始链接失效、文件丢失或服务器限速/中断传输的情况。

数据集状态总览

数据集编号 大小 可用状态
DataSet 1 2.47 GB 可用
DataSet 2 631.6 MB 可用
DataSet 3 599.4 MB 可用
DataSet 4 358.4 MB 可用
DataSet 5 61.5 MB 可用
DataSet 6 53.0 MB 可用
DataSet 7 98.2 MB 可用
DataSet 8 10.67 GB 可用
DataSet 9 96.25 GB 约99.5%已重建
DataSet 10 ~82 GB 可用
DataSet 11 ~27.5 GB 可用
DataSet 12 114.1 MB 可用

下载方式

选项一:直接下载

  • 来源:美国司法部官方.zip文件。
  • 示例链接https://www.justice.gov/epstein/files/DataSet%201.zip
  • 特点:可能存在下载速度慢、速率限制或偶尔中断的情况。

选项二:种子磁力链接

  • 来源:社区为长期保存而制作的种子。
  • 推荐原因:可避免服务器限速、支持断点续传、保障长期可用性。
  • 特点:磁力链接格式为 magnet:?xt=urn:btih:....

数据集详情

数据集 1-8

  • 综合链接:数据集1-8可通过互联网档案馆获取。
  • 互联网档案馆链接https://archive.org/details/combined-all-epstein-files/COMBINED_ALL_EPSTEIN_FILES.pdf

各数据集具体信息

每个数据集条目包含:

  1. 美国司法部官方.zip下载链接。
  2. 种子磁力链接。
  3. 可供直接复制的链接文本。
  4. 已知的哈希值(用于验证)。

数据集 9 特别说明

  • 状态:不完整/不稳定。
  • 问题:通过司法部直接下载时,多次报告在约49 GB(总大小约180 GB)处被切断。
  • 最新进展:截至2026年2月初,社区利用数据集元数据文件进行协调后,表明数据集9目前可从流通的来源中重建约99.5%。
  • 重建含义
    • 数据集预计包含约531,307个IMAGES条目。
    • 当前合并来源得到约531,282个PDF文件。
    • 约25个PDF文件仍缺失。
    • 其余缺失内容主要为NATIVES文件,估计约135个。
  • 注意事项:此存储库不声称数据集9已完全完整或具有权威性,仅记录撰写时已知的最佳公共重建状态。

哈希验证

  • 目的:验证下载文件的完整性。
  • 方法:部分数据集提供了SHA1、SHA256或MD5哈希值。
  • 验证命令示例
    • Linux/macOS: sha256sum 文件名.zip
    • Windows PowerShell: CertUtil -hashfile 文件名.zip SHA256

使用与贡献

  • 如何使用:此存储库是Epstein Files数据集的索引和镜像辅助工具,旨在使文件更易于完整下载、断点续传、长期保存并为社区做种。
  • 如何帮助:下载后请持续做种、负责任地创建镜像,并在提供哈希值时进行验证。
搜集汇总
数据集介绍
main_image_url
构建方式
在司法档案公开领域,Epstein Files数据集源于美国司法部于2026年1月30日发布的官方档案,原始数据以多个独立的ZIP压缩包形式分发。为应对官方服务器可能存在的限流或中断风险,社区档案工作者发起了镜像与索引项目,通过生成种子磁力链接并上传至互联网档案馆等方式,构建了一个去中心化的长期保存网络。这一构建过程融合了官方数据源的权威性与分布式存储的韧性,旨在确保档案的完整性、可恢复性及持久可访问性。
特点
该数据集作为一套大型司法档案集合,其显著特点在于规模庞大且结构复杂,总计包含12个子集,数据量从数十兆字节至近百吉字节不等,累计体积异常可观。档案内容以原始ZIP格式封装,部分子集附有SHA256、MD5等密码学哈希值以供校验,确保了数据的真实性与完整性。尤为突出的是,数据集通过社区协作提供了多种获取途径,包括官方直连、种子网络及互联网档案馆镜像,形成了多冗余、抗审查的分布式存取生态,其中第九号子集因官方源不完整而标注为待补充状态,体现了档案收集过程中的透明性与动态性。
使用方法
研究人员获取该数据集时,可根据自身网络环境与需求选择三种主要方式:直接下载官方司法部提供的ZIP链接、使用推荐的种子磁力链接通过qBittorrent等客户端进行点对点传输,或访问互联网档案馆的稳定镜像。对于大体积文件,种子下载方式能有效避免服务器限流并支持断点续传。下载完成后,建议在Linux或Windows系统下使用sha256sum或CertUtil等工具比对文件哈希值,以验证数据未被篡改。使用者若通过种子渠道获取数据,在下载完毕后保持做种行为,将有助于维护这一社区驱动档案的长期生命力与可及性。
背景与挑战
背景概述
在数字档案管理与司法透明化研究领域,Epstein Files数据集于2026年1月30日由美国司法部正式发布,标志着对特定历史法律案件档案的系统性公开。该数据集作为一项重要的公共档案资源,其核心研究问题聚焦于如何通过大规模电子文档的开放获取,促进司法过程的公众监督与历史研究。社区档案工作者迅速响应,通过建立镜像索引与分布式存储网络,旨在确保这类敏感且庞大的政府档案能够被长期、稳定地保存与访问,体现了数字时代对信息持久性与可及性的学术追求。
当前挑战
该数据集所应对的领域挑战在于,如何为研究者与公众提供一套完整、可验证且易于获取的大规模司法档案,以支持深入的实证分析与事实核查。在构建过程中,数据集面临着多重技术性挑战:原始文件以分散的ZIP压缩包形式发布,总数据量巨大,部分数据集(如DataSet 9)在官方服务器下载时存在中断或不完整的问题,对数据完整性构成了直接威胁。此外,确保长期保存与分发免受链接失效或服务器限制的影响,促使社区必须依赖BitTorrent协议与互联网档案馆等分布式技术来维持数据的可用性与完整性,这一过程本身即是对数字档案可持续性管理能力的严峻考验。
常用场景
经典使用场景
在司法档案与数字保存领域,Epstein Files数据集作为美国司法部于2026年发布的官方档案集合,其经典使用场景聚焦于大规模历史文档的长期保存与分布式访问。该数据集通过社区镜像与索引项目,整合了原始ZIP档案、种子磁力链接及互联网档案馆镜像,为研究者与公众提供了稳定、可恢复的下载途径,尤其适用于应对官方链接中断或服务器限流等情形,确保了关键司法材料的持久可及性。
解决学术问题
该数据集主要解决了数字档案学与信息保存领域中的核心学术问题,即如何在大规模公共档案发布后实现其长期、去中心化的保存与验证。通过提供多重下载选项与哈希校验机制,它构建了一个抗审查的档案存储模型,为研究司法透明度、档案完整性以及分布式存储技术的学者提供了实证基础,推动了数字遗产保存方法论的发展,并强化了公共数据在学术研究中的可信度与可重复性。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在分布式存储协议优化与档案验证技术方面。例如,社区驱动的种子网络维护项目通过去重与分片策略提升了大型档案的分发效率;同时,基于哈希校验的完整性验证工具被开发用于确保下载内容的真实性。这些工作不仅巩固了Epstein Files作为基准测试数据集在数字保存研究中的地位,也催生了新一代抗中断档案镜像系统的设计理念。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作