U.S. House Oversight Epstein Estate Documents
收藏github2025-11-26 更新2025-11-28 收录
下载链接:
https://github.com/theelderemo/Epstein-files
下载链接
链接失效反馈官方服务:
资源简介:
该数据集整理了美国众议院监督委员会于2025年11月12日发布的Epstein庄园超过20,000页文档,通过组织和转换为标准化格式,旨在促进开源调查。包含25,000多个纯文本文件和约20,000张经OCR转换的图片,适用于AI研究和调查新闻的探索性分析及RAG系统开发。
This dataset compiles over 20,000 pages of documents pertaining to the Epstein estate, released by the United States House Committee on Oversight and Accountability on November 12, 2025. It has been structured and converted into standardized formats to advance open-source investigative work. The dataset includes more than 25,000 plain-text files and approximately 20,000 OCR-processed images, and is suitable for exploratory analysis in AI research and investigative journalism, as well as the development of Retrieval-Augmented Generation (RAG) systems.
创建时间:
2025-11-25
原始信息汇总
U.S. House Oversight Epstein Estate Documents 数据集概述
数据集简介
- 数据来源:美国众议院监督委员会于2025年11月12日发布的Epstein遗产文件
- 数据规模:原始文件超过20,000页,包含25,000+个纯文本文件
- 发布目标:通过标准化整理使政府公开文件更易于访问,支持开源调查
核心用途
- 评估信息检索和检索增强生成(RAG)系统
- 开发和测试搜索、聚类、知识图谱及摘要工具
- 支持符合开放科学原则的透明、可重复研究
数据预处理
- 将委员会公开文件整理为单一CSV格式
- 约20,000张JPG图像文件使用Tesseract OCR引擎转换为文本
- 原始文本文件(位于TEXT/目录)保持原样
- 文件名保留原始相对路径和命名约定
使用规范
用户责任
- 尊重文档中提及的个人,避免滥用敏感材料
- 明确区分模型生成内容与已验证事实
- 尊重所有现有编辑,不尝试识别受保护信息
- 遵守新闻和学术伦理标准
禁止用途
- 微调语言模型
- 骚扰、人肉搜索或针对任何个人或群体的攻击
- 试图识别编辑信息或规避现有编辑
- 将未经核实的指控作为事实陈述
- 夸大发现内容
已知限制
- 可能包含OCR噪声和字符识别错误
- 可能存在格式损坏
- 继承原始扫描件的编辑块、印章或标记
法律状态
- 原始文档由各种私人和实体创建
- 文档受原始作者或权利持有人的版权保护
- 数据集不主张对基础文档的所有权
- 用户需自行确保符合适用法律和原始发布条款
内容警告
文档包含以下相关内容:
- 性虐待、剥削和贩运
- 暴力及其他高度敏感话题
- 未经核实的指控、意见和推测
搜集汇总
数据集介绍

构建方式
在政府信息公开的背景下,该数据集通过系统化预处理流程构建而成。原始文件来源于美国众议院监督委员会于2025年11月12日公开的爱泼斯坦遗产文件,包含多种混合格式的文档。技术团队采用开源OCR引擎对约两万张图像文件进行文字识别转换,同时保留原始文本文件的完整内容。所有处理后的文本数据被整合为超过2.5万个纯文本条目,并统一组织为结构化CSV格式,完整保留了原始文件的路径命名体系以便交叉引用。
特点
作为涉及敏感社会议题的政府公开文档集合,本数据集具有显著的技术特征与内容特性。其核心价值体现在经过标准化处理的文本形态,既包含通过光学字符识别转换的图像文档,也保留了原始数字文本的完整内容。数据集内可能存在OCR识别误差、格式断裂及原始红注标记等技术局限,这些特征恰好为信息检索系统的鲁棒性测试提供了真实场景。文档内容涉及未经核实的指控与敏感细节,这种复杂性为开发知识图谱和摘要生成工具创造了独特的研究条件。
使用方法
在数据驱动的调查新闻报道领域,该数据集为研究人员提供了特定的应用路径。使用者可通过本数据集开展信息检索与增强生成系统的评估实验,构建搜索聚类和知识图谱等分析工具。实际操作中需严格遵循伦理规范,保持对文档中涉及个体的尊重态度,明确区分模型生成内容与已验证事实。所有使用行为应当符合原始发布条款,在公共产品开发或模型训练等场景下需寻求独立法律意见,确保符合著作权法与隐私保护要求。
背景与挑战
背景概述
美国众议院监督委员会于2025年11月12日公开了爱泼斯坦庄园的逾两万页文档,旨在推动政府透明度与公共监督。这一数据集由开源社区在同年11月16日整理发布,核心目标是通过标准化处理提升文档可访问性,支持调查新闻与人工智能研究。其构建聚焦于解决原始资料分散、格式混杂的困境,为知识图谱构建与检索增强生成系统提供结构化基础,显著强化了公共事务分析的技术支撑。
当前挑战
该数据集首要挑战在于原始文档的异构性:文件嵌套存储且混合了图像与文本格式,需通过光学字符识别技术转换,但过程中易引入噪声与格式错误。领域层面需应对敏感内容伦理风险,包括性虐待相关记录的审慎处理与隐私保护。此外,法律边界要求严格遵循版权声明与原始发布条款,禁止模型微调等用途,增加了合规性管理的复杂度。
常用场景
经典使用场景
在公共事务透明度研究领域,该数据集为信息检索与知识发现提供了重要支撑。其最经典的应用场景在于支持调查记者与研究人员对大规模政府公开文档进行系统性分析,通过构建检索增强生成系统,能够高效挖掘文档中隐含的人物关联、事件脉络与时间序列模式,这种结构化处理使得原本分散在嵌套文件夹中的混合格式文件转化为可计算的研究素材。
衍生相关工作
基于该数据集衍生的经典工作主要集中在多模态信息融合技术领域。研究者开发了针对法律文档的专用OCR后处理算法,提升了手写体与印刷体混排文本的识别精度。此外,结合知识图谱的时序事件重建模型、面向敏感内容的伦理审查框架等创新方法,也在该数据集的验证中不断完善,形成了跨学科的研究范式。
数据集最近研究
最新研究方向
在数字取证与公共事务分析领域,该数据集正推动信息检索系统的前沿探索。研究者聚焦于开发基于检索增强生成(RAG)的智能分析框架,通过多模态数据融合技术处理文本与图像OCR内容,旨在构建能自动关联碎片化证据的知识图谱。当前研究热点涉及敏感信息伦理边界界定,以及在保障隐私前提下实现大规模文档的可解释性分析,这对推动司法透明度与计算社会科学方法论创新具有深远意义。
以上内容由遇见数据集搜集并总结生成



