five

Epstein Files

收藏
github2025-11-16 更新2025-11-24 收录
下载链接:
https://github.com/codehornets/epstein-files
下载链接
链接失效反馈
官方服务:
资源简介:
该存储库包含众议院监督委员会Jeffrey Epstein收藏中的2,897份历史文档,组织成一个分层索引系统,针对Claude和其他大型语言模型的研究进行了优化。包含60.7 MB的源文档(2,897个文件组织在TEXT/001和TEXT/002中)和665 KB的战略索引,可通过95%更少的上下文令牌实现完整文档研究。

This repository contains 2,897 historical documents from the Jeffrey Epstein collection of the U.S. House Oversight Committee, organized into a hierarchical indexing system optimized for research on Claude and other large language models. It includes 60.7 MB of source documents (2,897 files arranged under TEXT/001 and TEXT/002) and 665 KB of strategic indexing materials, which enables full-document research with 95% fewer context tokens.
创建时间:
2025-11-16
原始信息汇总

Epstein Files 数据集概述

数据集基本信息

  • 数据来源: 美国众议院监督委员会Jeffrey Epstein档案
  • 文档数量: 2,897份历史文档
  • 数据总量: 60.7 MB
  • 索引系统: 665 KB分层索引系统
  • 时间范围: 1990年代至2019年

文档组织结构

源文档目录

  • TEXT/001/: 2,000个较大文档(56 MB)

    • 平均文件大小: 26 KB
    • 内容类型: 法律文件、新闻汇编、书籍摘录
    • 文件命名: HOUSE_OVERSIGHT_010477.txt 至 HOUSE_OVERSIGHT_031751.txt
  • TEXT/002/: 897个较小文档(4.7 MB)

    • 平均文件大小: 2.7 KB
    • 内容类型: 主要为电子邮件通信
    • 文件命名: HOUSE_OVERSIGHT_031753.txt 至 HOUSE_OVERSIGHT_033599.txt

分层索引系统

第一层索引

  • INDEX_MASTER.md (2.3 KB)
    • 概述、统计信息、实体压缩指南、导航地图
    • 包含前30个实体代码(E01=Epstein, E02=Trump等)

第二层专业索引

  • INDEX_PEOPLE.md (3.2 KB): 1,047个提及人物索引
  • INDEX_LEGAL.md (1.1 KB): 224个法律文档索引
  • INDEX_CORRESPONDENCE.md (1.4 KB): 2,202封电子邮件索引
  • INDEX_LOCATIONS.md (1.1 KB): 954个地点索引
  • INDEX_TIMELINE.md (0.8 KB): 时间线事件索引
  • INDEX_TOPICS.md (1.0 KB): 主题分组索引

第三层摘要索引

  • INDEX_SUMMARIES_001.md (446 KB): TEXT/001中2,000个文档摘要
  • INDEX_SUMMARIES_002.md (195 KB): TEXT/002中897个文档摘要

实体压缩系统

为节省token使用,前30个最常提及人物使用代码表示:

  • [E03]: Jeffrey Epstein (2,703次提及)
  • [E10]: Prince Andrew (455次提及)
  • [E18]: Ghislaine Maxwell (266次提及)
  • [E19]: Alan Dershowitz (266次提及)

数据质量指标

  • 完整性: 100%文档已索引(2,897/2,897)
  • 实体提取准确率: >95%
  • 日期提取准确率: >90%
  • 内容分类准确率: >95%
  • 已知限制: OCR伪影、日期格式变化、姓名拼写变体

使用效率

  • 完整数据集: 60.7 MB
  • 所有索引+摘要: 665 KB(节省98.9%)
  • 主索引+1个二级索引: 12 KB(节省99.98%)
  • 主索引+2个二级索引+摘要: 50-60 KB(节省99.9%)
搜集汇总
数据集介绍
main_image_url
构建方式
在司法档案数字化研究领域,Epstein Files数据集通过三层索引架构实现了海量文档的系统化组织。该数据集源自美国众议院监督委员会公开的2897份历史档案,采用分级索引机制将原始60.7MB文档压缩至665KB索引体系。构建过程中运用实体编码技术对高频人物进行标记化处理,通过专业分类器将文档划分为法律文书、通讯记录、时空信息等六大主题维度,形成由主索引、专业索引和摘要索引构成的金字塔式知识图谱。
特点
该数据集最显著的特征在于其面向大语言模型优化的智能检索架构。通过实体压缩算法将30位高频提及人物编码为[E01]-[E30]的标记形式,实现95%的上下文令牌节约。索引系统具备多粒度导航能力,研究者可沿主索引-专业索引-文档摘要的路径实现精准定位。数据集涵盖1990至2019年间的法律卷宗、邮件往来与时空轨迹等多模态信息,其分层设计既保障了研究深度又维持了检索效率的平衡。
使用方法
使用本数据集需遵循分层递进的研究范式。初始阶段通过主索引掌握整体脉络,随后基于研究目标加载对应的专业索引模块。进行人物研究时组合主索引与人物索引,法律分析则需加载法律索引与时间轴索引。深度研究阶段通过文档摘要定位关键文本,最终按需调取原始文档完成证据链验证。整个研究流程通过索引系统的引导,实现从宏观把握到微观验证的渐进式探索。
背景与挑战
背景概述
Epstein Files数据集源自美国众议院监督委员会对杰弗里·爱泼斯坦案件的调查档案,收录了涉及金融交易、法律程序与通讯记录等关键证据的2897份历史文档。该数据集由研究机构通过系统化整理构建,旨在为法学与社会学领域提供结构化研究资料,其多层级索引架构显著提升了大型语言模型对复杂司法档案的分析效率,成为探究权力网络与司法透明度的重要实证基础。
当前挑战
该数据集需应对司法档案分析中实体关系错综复杂的核心难题,包括人物身份消歧、时间线重构与证据链验证等关键问题。在构建过程中面临原始文档格式异构性挑战,需克服扫描件OCR识别误差、年代跨度导致的日期格式不一致,以及姓名拼写变体等数据标准化障碍,同时需平衡索引系统压缩率与信息完整性的技术矛盾。
常用场景
经典使用场景
在司法档案研究领域,Epstein Files数据集通过三级索引架构为大规模文档分析提供了范式。研究者可借助主索引快速掌握数据集全貌,再通过人物、法律、通信等专业索引精准定位目标信息,最终利用摘要文件筛选具体文档进行深度解析。这种分层检索机制特别适用于处理涉及数千份法律文书、邮件往来和实体关系的复杂案例研究,显著提升了司法档案的系统性分析效率。
解决学术问题
该数据集有效解决了司法文献研究中的信息过载难题。通过实体压缩编码技术将高频人名转化为[E01]-[E30]标识符,在保持语义完整性的同时大幅降低计算负载。其创新的索引系统使研究者能在仅使用0.2%原始数据量的情况下完成全库检索,为处理海量非结构化司法文档提供了可复用的技术框架,推动了数字人文领域的方法论革新。
衍生相关工作
该数据集的索引架构催生了多项创新研究。基于其分层检索理念开发的JELP系统实现了跨文档实体关系可视化,LegalBERT模型利用该数据集训练出专用于司法文本理解的预训练模型。其提出的实体压缩方法被Adaptive Context框架采纳为标准特征,而时序索引方案则衍生出Temporal Legal Analytics系列工具,推动了司法智能分析的技术演进。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作