five

FULL_EPSTEIN_INDEX

收藏
github2025-12-21 更新2025-12-22 收录
下载链接:
https://github.com/theelderemo/FULL_EPSTEIN_INDEX
下载链接
链接失效反馈
官方服务:
资源简介:
FULL_EPSTEIN_INDEX是一个综合性的、统一的研究档案,聚合了与Jeffrey Epstein遗产和相关调查相关的公开发布内容。该存储库扩展了早期的档案(如2025年11月众议院监督发布的初始版本),整合了司法部发布的《第一阶段的解密Epstein文件》。与之前仅限于扫描电子邮件的数据集不同,该索引结合了众议院监督文件、司法部披露、多媒体证据和转录本等内容。

FULL_EPSTEIN_INDEX is a comprehensive, unified research archive that aggregates publicly released content related to Jeffrey Epstein's estate and associated investigations. This repository expands upon earlier archives (such as the initial version released by the U.S. House Oversight Committee in November 2025) by integrating the "First Phase of Decrypted Epstein Documents" published by the U.S. Department of Justice. Unlike previous datasets limited solely to scanned emails, this index combines materials including House Oversight Committee documents, DOJ disclosures, multimedia evidence, and transcripts.
创建时间:
2025-12-20
原始信息汇总

FULL_EPSTEIN_INDEX 数据集概述

数据集基本信息

  • 许可证: MIT
  • 语言: 英语 (en)
  • 标签: epstein, epstein-data, dataset, fbi, journalism

数据集概述

FULL_EPSTEIN_INDEX 是一个全面的、统一的研究档案库,汇总了与杰弗里·爱泼斯坦遗产及相关调查相关的公开发布内容。该存储库整合了美国司法部发布的第一阶段解密爱泼斯坦文件,扩展了早期档案(如2025年11月众议院监督委员会的初始发布)。与之前仅限于扫描电子邮件的数据集不同,本索引结合了以下内容:

  1. 众议院监督委员会文件:约20,000页电子邮件和遗产记录(2025年11月)。
  2. 司法部披露文件:飞行日志、通讯录(经过编辑)和“按摩师名单”。
  3. 多媒体证据:来自监狱管理局的视频片段和麦克斯韦尔认罪协商会议的录音。
  4. 转录文本:所有音频和视频文件的自动生成文本转录,以实现全文搜索。

关于更新:此索引是一个动态档案库。随着政府机构解密和发布更多阶段的文件,它们将被处理、索引并添加到此存储库中。

数据集内容

该存储库的组织旨在促进开源情报分析和研究:

  • FULL_EPSTEIN_INDEX.csv:包含所有文件文本内容的主索引。这允许对PDF、图像和视频转录文本进行统一搜索。
  • raw_files/:原始源文件,以其原始格式保存:
    • 文档:飞行日志、通讯录和法律证据清单的PDF文件。
    • 视频:监狱管理局设施录像(2019年8月)及其他证据的MP4文件。
    • 音频:证人访谈和认罪协商会议的WAV文件。
  • transcripts/:特定媒体资源的单独文本文件。

预处理与方法论

为使这个异构数据集可搜索,采用了以下处理流程:

  • 遗留文档:原始20,000份文档发布中的文本从原始OCR提取中保留。
  • 新PDF文件:使用 pdfplumber 处理,从政府发布的数字原生文件(例如飞行日志)中提取高保真文本。
  • 音频和视频:使用 OpenAI Whisper(基础模型)进行转录。
    • 注意:转录是自动生成的,可能包含错误,尤其是在音频质量差或语音重叠的情况下。请务必与原始的 raw_files 媒体进行交叉核对。

使用指南

该数据集旨在用于研究、调查新闻和法律分析。访问此存储库即表示您同意以下道德准则:

用户责任

  • 核实事实:该数据大部分包含原始证据、笔记和未经证实的指控。未经确证,请勿将搜索结果作为既定事实呈现。
  • 尊重隐私:遵守源文件中所有编辑要求。请勿尝试使用此数据进行人肉搜索或骚扰个人。
  • 受害者尊严:以极其谨慎和尊重的态度对待所有关于潜在受害者的信息。

禁止用途

  • 禁止微调:请勿使用此数据集来训练或微调生成式AI模型。在敏感法律问题上产生幻觉的风险过高。
  • 禁止骚扰:请勿使用此工具针对私人个体。
  • 禁止商业利用:此数据用于公共利益和教育目的。

数据来源

本索引汇总了来自以下机构的公共领域发布内容:

  1. 美国众议院监督与问责委员会(2025年11月12日发布)
  2. 美国司法部(第一阶段解密文件、飞行日志、麦克斯韦尔认罪协商材料,2025年12月发布)
  3. 所有联邦调查局、边境巡逻队及其他政府机构的发布内容

法律与免责声明

免责声明:此存储库是一个独立集合,并非美国政府的官方服务。

  • 版权:原始政府文件通常属于公共领域,或根据合理使用原则为研究而发布。组织脚本和索引结构根据MIT许可证授权。
  • 责任FULL_EPSTEIN_INDEX 的维护者对底层文档不主张所有权,并对该数据的使用、滥用或解释不承担任何责任。用户全权负责遵守适用的法律和隐私法规。
搜集汇总
数据集介绍
main_image_url
构建方式
在构建FULL_EPSTEIN_INDEX数据集时,研究者整合了多源公开档案,包括美国众议院监督委员会于2025年11月发布的约20,000页电子邮件与财产记录,以及司法部解密的第一阶段文件,涵盖飞行日志、联系人簿与音频视频证据。通过系统化预处理流程,对数字原生PDF采用pdfplumber提取高保真文本,对音频视频材料则运用OpenAI Whisper模型自动生成转录文本,同时保留原始文件的OCR提取结果,最终形成统一的CSV索引文件,确保异构数据具备全文检索能力。
特点
该数据集作为综合性研究档案,其显著特点在于聚合了政府多部门发布的原始证据材料,不仅包含扫描文档与数字PDF,还纳入了边境巡逻视频、证人访谈音频等多媒体内容,并辅以自动生成的文字转录,实现了跨模态数据的统一检索。数据集采用动态更新机制,随着后续解密文件的发布将持续扩展,为开源情报分析与法律研究提供了结构化的多格式资源库,同时严格遵循原始文件中的隐私保护措施,维护了数据的完整性与伦理性。
使用方法
数据集适用于调查性新闻、法律分析与学术研究等公共领域。使用者可通过主索引CSV文件进行全文检索,快速定位相关文档、音频或视频的转录内容,并参照原始文件目录进行交叉验证。为确保研究过程的严谨性,用户需独立核实数据中的指控与陈述,尊重文件中的隐私信息,避免对涉及个人进行骚扰或商业利用。数据集明确禁止用于生成式人工智能模型的训练,以防止在敏感法律问题上产生误导性内容,体现了对研究伦理与数据责任的重视。
背景与挑战
背景概述
FULL_EPSTEIN_INDEX数据集于2025年末由独立研究者theelderemo构建,旨在整合美国众议院监督委员会与司法部陆续解密的杰弗里·爱泼斯坦案相关公开档案。该数据集作为一项综合性研究资源,汇聚了电子邮件、飞行日志、联系人名录及视听证据等多模态材料,为开源情报分析、法律研究与调查新闻提供了结构化数据基础。其核心研究问题聚焦于通过大规模档案的数字化与索引化,揭示案件背后的网络关联与证据链条,从而推动公众对复杂司法事件的透明化认知,并在数字人文与计算社会科学领域树立了敏感史料归档的范例。
当前挑战
该数据集致力于应对敏感司法档案的多模态信息融合与可信度验证挑战,具体体现为:在领域层面,原始材料包含大量未经核实的指控、模糊的视听记录及部分涂改文档,要求研究者具备极强的交叉验证能力以区分事实与传闻;在构建过程中,数据异构性突出,需协调扫描件OCR提取、原生PDF文本解析及低质量音视频的自动转录,同时确保自动化流程在专有名词与重叠语音场景下的准确性。此外,伦理约束要求严格遵循隐私保护与受害者尊严原则,避免数据滥用对个体造成二次伤害。
常用场景
经典使用场景
在新闻调查与开源情报分析领域,FULL_EPSTEIN_INDEX数据集为研究者提供了统一的档案平台,整合了与杰弗里·爱泼斯坦案相关的海量公开文件。该数据集最经典的使用场景在于支持深度调查报道,记者和分析师能够通过全文检索功能,跨文档、音频和视频转录进行关联分析,从而追踪案件线索、验证信息源,并揭示潜在的网络关系。这种集成化访问方式极大地提升了处理复杂证据链的效率,使得大规模档案的梳理成为可能。
实际应用
在实际应用中,FULL_EPSTEIN_INDEX服务于法律分析、公共监督与教育活动。律师和调查人员可利用其中的视频录像、音频转录和文件记录来构建案件证据;非政府组织和监督机构则借助该数据集监测政府信息披露的完整性与透明度。此外,教育工作者在遵守伦理准则的前提下,可将其作为案例研究材料,培养学生对数据伦理、调查方法和社会正义议题的批判性思维。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在数据新闻与计算社会科学领域。例如,基于档案的关联网络分析研究,通过提取联系人、航班记录等结构化信息,可视化涉案人员的社会网络;另有工作专注于开发更精准的音频转录工具,以提升对低质量录音的处理能力。这些衍生研究不仅深化了对案件本身的理解,也为处理类似大规模敏感档案提供了方法论上的参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作