five

Department of War UFO/UAP Release 01 OCR + Metadata

收藏
github2026-05-09 更新2026-05-11 收录
下载链接:
https://github.com/unmodeled-tyler/DoW-UFO-UAP-1
下载链接
链接失效反馈
官方服务:
资源简介:
该仓库是公共战争部/PURSUE UFO-UAP Release 01记录的机器可读Hugging Face数据集。包含OCR页面、数据包、来源、分类标记、分类审查和媒体资产等表格,支持按需加载特定配置。

This repository is a machine-readable Hugging Face dataset released under The Public War Department / PURSUE UFO-UAP Release 01. It contains tables including OCR pages, data packages, sources, classification tags, classification reviews, and media assets, and supports loading specific configurations on demand.
创建时间:
2026-05-09
原始信息汇总

数据集概述

数据集名称:Department of War UFO/UAP Release 01 OCR + Metadata
许可证:CC0-1.0(衍生注释和元数据);原始记录由美国政府公开发布
语言:英语
任务类别:文本分类、标记分类、问答、摘要、特征提取
关键词:公共记录、OCR、文档AI、UAP(不明空中现象)、UFO(不明飞行物)、FBI(美国联邦调查局)、档案文件、PURSUE Release 01


数据集内容

该数据集为美国战争部/追查不明空中现象第01号发布记录(PURSUE UFO-UAP Release 01)的机器可读Hugging Face数据集,采用内部分片方式组织,共包含以下六个配置(config):

配置名称 说明
sources 每条记录对应一个源文件/记录,包含官方来源URL、机构、发布元数据、文件名、哈希值、页数、批次ID、处理状态和解析器版本。
pages 每条记录对应一个经过OCR处理的PDF页面,包含原始OCR文本、保守清洗后的OCR文本、摘要、质量标记、文档标签、检测到的分类/安全标记、来源出处及相对路径。
packets 每条记录对应一个推断或手动覆盖的文档包,将相邻页面分组为更高级的档案/文档单元。
classification_markings pages的子集,记录机器OCR检测到可能分类/安全标记的页面(非权威)。
triage 人工审核的包标签(如KEEP_INVESTIGATEDEPRIORITIZED),当前仅有3行。
media_assets 每条记录对应一个非PDF媒体资产(如视频),包含原始发布文件路径、SHA256、文件大小、时长、尺寸、编解码信息及可选关键帧路径。

当前构建状态(截至README编写时)

  • 源记录索引数:45(目标覆盖全部161条记录)
  • OCR页面行数:3605
  • 包行数:797
  • 检测标记行数:480
  • 人工审核行数:3
  • 物理分片目标:4

数据加载示例

python from datasets import load_dataset

pages = load_dataset("unmodeled-tyler/DoW-UFO-UAP-1", "pages") packets = load_dataset("unmodeled-tyler/DoW-UFO-UAP-1", "packets") sources = load_dataset("unmodeled-tyler/DoW-UFO-UAP-1", "sources") markings = load_dataset("unmodeled-tyler/DoW-UFO-UAP-1", "classification_markings") triage = load_dataset("unmodeled-tyler/DoW-UFO-UAP-1", "triage") media_assets = load_dataset("unmodeled-tyler/DoW-UFO-UAP-1", "media_assets")


OCR与视觉辅助方法

  • 第一遍OCR:使用Tesseract引擎,结果存储在ocr_text中。
  • 保守文本启发式:对页面/文档类型进行分类,检测常见安全/分类标记。
  • 视觉辅助:针对高风险页面(低OCR质量、封面页、退化扫描页),使用本地Ollama视觉模型gemma4:e4b进行目标性视觉救援,主要用于标记检测和分类上下文,不重写OCR转录。
  • 原始OCR被保留,模型辅助字段仅为数据集辅助工具,非权威解读。

重要注意事项

  • 所有文本、摘要、分类、包边界和检测标记均为机器生成,除非明确经人工验证。
  • 原始源PDF文件具有权威性
  • 检测到的标记不代表确认的分类状态
  • 记录中的主张未经核实,不应视为政府背书
  • 某些源记录可能包含第三方材料(如报纸剪报),下游用户需自行评估版权责任。

预期用途

  • 公共记录搜索与检索
  • OCR校正与评估
  • 文档分类
  • 实体提取
  • 页面/包分类
  • 长上下文摘要实验
  • 公民/档案研究工具开发

非预期用途

  • 将机器生成的标签视为权威
  • 将记录中的主张视为已核实事实
  • 推断政府对主张的背书
  • 使用未经验证的OCR检测标记作为确认的分类状态
搜集汇总
数据集介绍
main_image_url
构建方式
本数据集以美国国防部/UFO-UAP首批公开记录为基础,通过系统化的文档数字化与元数据增强流程构建而成。初始阶段,从45份官方发布的PDF源文件中渲染页面图像,采用Tesseract引擎进行初轮OCR文本提取。随后,针对低质量OCR页面、封面页及存在可见印章或退化扫描的高风险页面,引入本地部署的Ollama视觉模型(gemma4:e4b)执行辅助视觉救援,以提升标记检测与分类情境的准确性。所有OCR文本被完整保存,模型辅助字段仅作为数据集增强工具,不替代原始记录。全部记录按源文件、页面、数据包、分类标记及人工分类等维度进行结构化分片,并以Hugging Face数据集格式存储。
特点
数据集具有多层次、多模态的结构化特点,涵盖六个命名配置:pages、packets、sources、classification_markings、triage和media_assets,分别对应OCR页面文本、文档数据包、源文件元数据、机器检测的保密标记、人工分类标签及非PDF媒体资产。其中,文本层面保留了原始OCR与保守标准化两种版本,并辅以摘要和质量标记。数据包机制将相邻页面重组为更高层次的档案单元,便于文献检索。分类标记表需经人工验证方可视为权威,体现了对机器输出不确定性的严谨态度。此外,数据集支持多分片稳定加载,适合大规模分布式处理。
使用方法
数据集通过Hugging Face Datasets库便捷加载,用户可根据需求选择特定配置,例如使用`load_dataset("unmodeled-tyler/DoW-UFO-UAP-1", "pages")`获取OCR页面数据。数据表中的数组型字段以JSON字符串编码,需调用`json.loads`解析为Python列表。该数据集适用于公共记录检索、OCR校正与评估、文档分类、实体抽取、长上下文摘要实验及档案馆研究工具开发。使用时需注意,所有机器生成的标签、边界及检测结果未经人类验证前不具备权威性,原始PDF源文件始终作为最终依据。非PDF媒体资产(如视频)的解读应基于档案内容描述,而非视为独立证据。
背景与挑战
背景概述
UAP Release 01 OCR + Metadata数据集由研究者Tyler于2025年创建,旨在将美国国防部依据《信息自由法》公开的首批UFO/UAP政府档案转化为结构化、机器可读的学术资源。该数据集的核心研究问题聚焦于如何通过光学字符识别与视觉辅助技术,从大量扫描PDF中提取文本、检测安全标记,并构建多层级元数据体系,以支持公共记录检索、文档分类与长文本摘要实验。其影响力在于为UAP研究领域提供了首个标准化、可复现的数字档案基础,不仅降低了学者与公众获取原始政府文件的门槛,还推动了OCR校正、实体抽取及档案自动化处理等方向的研究。
当前挑战
该领域面临的首要挑战是政府档案中UAP相关记录的分散性与非结构化特征,原始PDF多为低质量扫描件,叠加密印、模糊文字与多样版式,导致传统OCR引擎的文本提取准确率低下。构建过程中,技术挑战表现为三方面:其一,需设计分段式管线,平衡Tesseract的快速初筛与轻量视觉模型的针对性增强,同时避免误改写原始转录;其二,分类标记检测高度依赖对国防部文档规范的计算机识别,机器生成的标注无法替代人工审核;其三,非PDF媒体资产(如视频、图像)的处理流水线尚不完善,当前仅能通过元数据索引实现溯源,后续需引入专门的视觉分析模块以应对多模态数据的结构异构性。
常用场景
经典使用场景
该数据集的核心应用场景在于构建面向大规模历史档案的OCR后处理与文档理解系统。依托于美国国防部解密的UFO/UAP档案,研究人员可利用‘pages’配置中的原始OCR文本与经保守清洗的标准化文本,开展文档级的光学字符识别纠错实验。同时,‘classification_markings’子集为安全标记检测提供了宝贵的标注参考,使得该数据集成为训练公文密级分类模型的绝佳语料。此外,‘packets’与‘triage’配置支持从页面到文档包的层次化结构分析,在信息检索与档案结构化组织的研究中扮演关键基石角色。
实际应用
在实际应用层面,该数据集为公共记录搜索与公民档案研究工具的开发注入了新动能。借助其涵盖的45份信源记录及超3600页OCR行,开发者可构建灵敏的档案检索系统,使用户能够以自然语言即时定位特定信源中的历史文档。媒体资产子集对非PDF文件的溯源描述,使得视频与图像资产的法医式分析成为可能。在新闻调查与政策透明化领域,该数据集与PURSUE计划结合,为政府部门、记者及独立研究团体提供了一座连接原始纸质档案与数字化分析流水线的桥梁。
衍生相关工作
围绕该数据集已涌现出一系列具有启发性的衍生工作。基于‘triage’中有限的人工审查标签,研究者尝试训练轻量级预分类模型以加速大规模档案的优先级排序,相关思路被借鉴至其他政府公开记录项目。针对‘classification_markings’的视觉检测任务,催生了将光学字符识别与目标检测技术相结合的混合解码框架。在信息检索领域,以文档包为单位的‘packets’结构激发了图神经网络在跨文档实体对齐上的应用探索。此外,该数据集还作为关键语料被用于验证长上下文大型语言模型在历史档案摘要生成中的表现边界。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作