Department of War UFO/UAP Release 01 OCR + Metadata
收藏数据集概述
数据集名称:Department of War UFO/UAP Release 01 OCR + Metadata
许可证:CC0-1.0(衍生注释和元数据);原始记录由美国政府公开发布
语言:英语
任务类别:文本分类、标记分类、问答、摘要、特征提取
关键词:公共记录、OCR、文档AI、UAP(不明空中现象)、UFO(不明飞行物)、FBI(美国联邦调查局)、档案文件、PURSUE Release 01
数据集内容
该数据集为美国战争部/追查不明空中现象第01号发布记录(PURSUE UFO-UAP Release 01)的机器可读Hugging Face数据集,采用内部分片方式组织,共包含以下六个配置(config):
| 配置名称 | 说明 |
|---|---|
| sources | 每条记录对应一个源文件/记录,包含官方来源URL、机构、发布元数据、文件名、哈希值、页数、批次ID、处理状态和解析器版本。 |
| pages | 每条记录对应一个经过OCR处理的PDF页面,包含原始OCR文本、保守清洗后的OCR文本、摘要、质量标记、文档标签、检测到的分类/安全标记、来源出处及相对路径。 |
| packets | 每条记录对应一个推断或手动覆盖的文档包,将相邻页面分组为更高级的档案/文档单元。 |
| classification_markings | 是pages的子集,记录机器OCR检测到可能分类/安全标记的页面(非权威)。 |
| triage | 人工审核的包标签(如KEEP_INVESTIGATE或DEPRIORITIZED),当前仅有3行。 |
| media_assets | 每条记录对应一个非PDF媒体资产(如视频),包含原始发布文件路径、SHA256、文件大小、时长、尺寸、编解码信息及可选关键帧路径。 |
当前构建状态(截至README编写时):
- 源记录索引数:45(目标覆盖全部161条记录)
- OCR页面行数:3605
- 包行数:797
- 检测标记行数:480
- 人工审核行数:3
- 物理分片目标:4
数据加载示例
python from datasets import load_dataset
pages = load_dataset("unmodeled-tyler/DoW-UFO-UAP-1", "pages") packets = load_dataset("unmodeled-tyler/DoW-UFO-UAP-1", "packets") sources = load_dataset("unmodeled-tyler/DoW-UFO-UAP-1", "sources") markings = load_dataset("unmodeled-tyler/DoW-UFO-UAP-1", "classification_markings") triage = load_dataset("unmodeled-tyler/DoW-UFO-UAP-1", "triage") media_assets = load_dataset("unmodeled-tyler/DoW-UFO-UAP-1", "media_assets")
OCR与视觉辅助方法
- 第一遍OCR:使用Tesseract引擎,结果存储在
ocr_text中。 - 保守文本启发式:对页面/文档类型进行分类,检测常见安全/分类标记。
- 视觉辅助:针对高风险页面(低OCR质量、封面页、退化扫描页),使用本地Ollama视觉模型
gemma4:e4b进行目标性视觉救援,主要用于标记检测和分类上下文,不重写OCR转录。 - 原始OCR被保留,模型辅助字段仅为数据集辅助工具,非权威解读。
重要注意事项
- 所有文本、摘要、分类、包边界和检测标记均为机器生成,除非明确经人工验证。
- 原始源PDF文件具有权威性。
- 检测到的标记不代表确认的分类状态。
- 记录中的主张未经核实,不应视为政府背书。
- 某些源记录可能包含第三方材料(如报纸剪报),下游用户需自行评估版权责任。
预期用途
- 公共记录搜索与检索
- OCR校正与评估
- 文档分类
- 实体提取
- 页面/包分类
- 长上下文摘要实验
- 公民/档案研究工具开发
非预期用途
- 将机器生成的标签视为权威
- 将记录中的主张视为已核实事实
- 推断政府对主张的背书
- 使用未经验证的OCR检测标记作为确认的分类状态




