epstein-files-ocr-complete
收藏Hugging Face2026-03-19 更新2026-03-20 收录
下载链接:
https://huggingface.co/datasets/ishumilin/epstein-files-ocr-complete
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个关于杰弗里·爱泼斯坦(Jeffrey Epstein)案件的完整OCR数据集,包含从大量相关文档中提取的页面级OCR输出。每个数据行代表一个扫描的PDF文档,使用由Wild Ma-Gässli提供的专有自动OCR流程处理。数据集适用于问答、信息检索以及命名实体识别(NER)、实体链接和关系提取等下游NLP任务。数据集规模庞大,包含1,380,935个PDF文档,总计超过2,700,000页。数据以Parquet格式提供,每个页面保留其原始document_id(如EFTA00000001),解决了早期版本中页面无法追溯到源PDF的问题。数据集主要包含英文内容,设计用于与Epstein Chat分析工具配合使用。数据字段包括document_id(字符串)和content(字符串)。数据集来源为上游爱泼斯坦文件发布,OCR处理使用专有模型。使用数据时需注意包含个人/敏感信息,OCR噪声以及原始发布机构的选择和编辑偏差。数据集采用CC0 1.0许可证。
创建时间:
2026-03-18



