epstein-files-ocr-complete

Hugging Face2026-03-19 更新2026-03-20 收录

下载链接：

https://huggingface.co/datasets/ishumilin/epstein-files-ocr-complete

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个关于杰弗里·爱泼斯坦（Jeffrey Epstein）案件的完整OCR数据集，包含从大量相关文档中提取的页面级OCR输出。每个数据行代表一个扫描的PDF文档，使用由Wild Ma-Gässli提供的专有自动OCR流程处理。数据集适用于问答、信息检索以及命名实体识别（NER）、实体链接和关系提取等下游NLP任务。数据集规模庞大，包含1,380,935个PDF文档，总计超过2,700,000页。数据以Parquet格式提供，每个页面保留其原始document_id（如EFTA00000001），解决了早期版本中页面无法追溯到源PDF的问题。数据集主要包含英文内容，设计用于与Epstein Chat分析工具配合使用。数据字段包括document_id（字符串）和content（字符串）。数据集来源为上游爱泼斯坦文件发布，OCR处理使用专有模型。使用数据时需注意包含个人/敏感信息，OCR噪声以及原始发布机构的选择和编辑偏差。数据集采用CC0 1.0许可证。

创建时间：

2026-03-18

5,000+

优质数据集

54 个

任务类型

进入经典数据集