five

DOJ Epstein Archive – No Images Produced Dataset

收藏
github2026-02-21 更新2026-02-22 收录
下载链接:
https://github.com/HackTuah/doj-epstein-files
下载链接
链接失效反馈
官方服务:
资源简介:
该仓库记录了公开发布的DOJ Epstein档案材料子集的技术分析,重点关注从查询no images produced返回的文件。DOJ档案经常提供标记为.pdf扩展名的URL,即使底层文件类型不是PDF。该项目尝试通过编程方式确定每个条目的真实文件类型。

This repository presents a technical analysis of a subset of publicly released DOJ Epstein archive materials, with a focus on files returned from the query "no images produced". DOJ archives often provide URLs labeled with the .pdf file extension, even when the underlying file type is not PDF. This project attempts to programmatically determine the true file type of each entry.
创建时间:
2026-02-21
原始信息汇总

DOJ Epstein Archive -- "No Images Produced" 数据集概述

数据集简介

该数据集是对美国司法部(DOJ)公开的爱泼斯坦档案材料子集进行技术分析的记录。分析重点针对来自特定搜索查询“no images produced”返回的文件。数据集旨在通过程序化方法,利用魔数字节检测,确定每个条目的真实文件类型,因为DOJ档案提供的URL常带有.pdf扩展名,但其底层实际内容可能是视频、音频、图像、压缩包或其他媒体格式。

数据集状态

这是一个进行中的数据集。

  • 基础数据集已收集完成。
  • 文件扩展名解析部分完成。
  • 当前发布的resolved.partial.csv反映了阶段性运行结果。
  • 由于网站速率限制,部分条目尚未解析。
  • 部分条目可能需要额外的探测轮次。 当前发布的CSV文件是原始的,如实反映了上传时的解析状态。

数据集文件

no_images_produced_links.csv

直接从DOJ搜索结果中提取的基础数据集。这些是DOJ网站发布的原始URL。大多数条目以.pdf结尾,无论其真实文件类型如何。该文件代表了当前正在分析的完整基础集合。

resolve_extensions.py

用于绕过WAF保护、探测URL并在不完全下载大型媒体文件的情况下确定真实文件扩展名的Python脚本。

resolved.partial.csv

一个阶段性的解析结果数据集。该文件包含以下字段:

  • base_id
  • original URL
  • base URL(去除扩展名)
  • resolution status
  • resolved URL(如果找到)
  • detected extension
  • detected file type(通过魔数字节检测)
  • HTTP content-type
  • resolution notes 由于DOJ网站实施了严格的速率限制和反机器人控制,解析必须分批进行。随着更多轮次完成,该数据集将逐步更新。脚本会自动读取此文件以恢复进度。

技术方法

解析采用以下技术:

  • 基于Playwright的会话处理:用于通过年龄验证、生成有效Cookie并伪造标准浏览器标头。
  • HTTP范围请求:仅获取文件的前64KB,以节省大量带宽。
  • 魔数字节检测:无论服务器的HTTP标头如何,都能可靠地确定真实文件类型。
  • 内容类型验证与分层探测:采用媒体优先的猜测策略(如.mp4, .mov等)。
  • HTML/网关检测:用于过滤由软404或WAF重定向导致的误报HTTP 200响应。

限制与注意事项

  • IP绑定:会话Cookie严格绑定到您的IP地址。更改VPN或重启路由器将使justice_storage_state.json失效,导致HTTP 401/403错误。若发生此情况,需删除JSON文件并重新运行脚本以生成新的Cookie。
  • 速率限制:DOJ网站执行严格的速率限制。脚本目前每次处理1个文件,并带有随机抖动延迟(2.5秒至5.5秒)以模拟人类行为。
  • 蜂窝网络热点:如果您的住宅IP或VPN被WAF永久标记,将机器连接到5G/LTE移动热点通常可以绕过限制,因为运营商级NAT(CGNAT)IP具有较高的可信度。

免责声明

此存储库中引用的所有数据均源自司法部公开的材料。 此存储库不托管、修改或重新分发源文件。它记录了针对可公开访问的URL进行的技术分析和文件类型解析,用于研究和档案完整性目的。

搜集汇总
数据集介绍
构建方式
在数字档案研究领域,准确识别公开档案中的文件类型对于维护数据完整性至关重要。DOJ Epstein Archive – No Images Produced Dataset的构建过程聚焦于美国司法部公开档案中标记为“no images produced”的查询结果。通过自动化脚本,该数据集采用基于Playwright的会话管理技术,绕过网站防火墙的年龄验证与验证码机制,并利用HTTP范围请求仅获取文件首部64KB数据,结合魔术字节检测方法,精确判定文件的实际格式,而非依赖服务器提供的HTTP头信息。这一过程通过分批次处理应对严格的速率限制,确保数据采集的系统性与可靠性。
特点
该数据集的核心特点在于其针对公开档案中文件类型误标问题的深度解析。数据集中的条目大多以.pdf扩展名呈现,但实际内容涵盖视频、音频、图像及压缩文件等多种媒体格式。通过魔术字节检测与内容类型验证的分层探测策略,数据集有效过滤了因防火墙重定向或软404错误导致的虚假HTTP 200响应,从而提供了高精度的文件类型识别结果。此外,数据集以原始CSV格式发布,明确标注解析状态与注释,真实反映了阶段性处理进展,为档案研究提供了透明且可追溯的数据基础。
使用方法
使用该数据集时,研究人员可通过提供的Python解析脚本继续处理未解析的链接或应用于新数据集。首先需配置Python环境并安装Playwright库,在首次运行脚本时以非无头模式启动浏览器,手动完成年龄验证与验证码交互以生成会话Cookie。脚本随后自动读取已解析的部分CSV文件,基于剩余条目恢复进度,并采用随机延迟策略模拟人类行为以避免触发速率限制。若因IP变更导致Cookie失效,需删除存储文件重新验证,确保数据采集的连续性与稳定性。
背景与挑战
背景概述
DOJ Epstein Archive – No Images Produced Dataset 诞生于对司法部公开档案的技术性解析需求,由独立研究团队于近年构建,旨在系统化处理档案中因文件扩展名误标而引发的数据识别难题。该数据集聚焦于查询结果中标记为“无图像生成”的条目,通过编程手段揭示其真实媒体格式,如视频、音频或图像文件,从而提升档案内容的可访问性与分析精度。其核心研究问题在于克服公共档案系统中普遍存在的元数据不准确现象,为数字取证、档案学及数据完整性验证领域提供了关键的技术范本与实证基础。
当前挑战
该数据集所应对的领域挑战在于公共档案资源的异构性与元数据失准问题,需从海量误标为PDF的URL中精准识别出视频、音频等多样媒体格式,以支持深入的司法与媒体分析。构建过程中的技术挑战尤为突出,包括应对严格的企业级WAF防护与年龄验证机制、规避反爬虫策略与速率限制,以及通过魔法字节检测区分真实文件内容与软404错误响应。此外,会话Cookie的IP绑定特性与网络环境变动导致的访问中断,进一步增加了数据采集的复杂性与持续性维护成本。
常用场景
经典使用场景
在数字档案管理与司法透明度研究领域,DOJ Epstein Archive – No Images Produced Dataset 的经典使用场景聚焦于对公开司法档案中媒体文件类型的自动化识别与验证。该数据集通过程序化手段解析美国司法部公开档案中标记为“无图像生成”的URL链接,利用魔法字节检测技术揭示被错误标注为PDF格式的真实文件类型,如视频、音频或图像等。这一过程不仅提升了档案数据的结构完整性,还为研究者提供了原始资料验证的技术基础,支持对大规模数字档案进行高效、准确的元数据重构。
实际应用
在实际应用中,该数据集服务于司法档案的透明度倡议与调查性新闻报道,帮助记者、研究人员与公众准确识别档案中的多媒体证据。例如,在分析涉及复杂媒体内容的司法记录时,该工具能快速区分视频证物与文本文档,提升调查效率。同时,它也被用于数字图书馆与档案馆的元数据增强项目,通过自动化检测减少人工标注错误,支持长期数字保存系统的建设,并在法律科技领域为电子证据管理提供技术辅助。
衍生相关工作
围绕该数据集衍生的经典工作主要包括基于魔法字节的档案验证框架开发,以及针对WAF防护的自动化爬虫优化研究。例如,后续研究扩展了其检测算法以支持更多媒体格式,并集成机器学习模型识别档案中的敏感内容。此外,受其启发的工作还涉及构建司法档案的完整性审计工具,用于监测公开数据集的变更与一致性,这些贡献共同推动了开放政府数据生态的技术标准化与可信度提升。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作