PURSUE Open Atlas — DoW UFO/UAP Release 01
收藏github2026-05-09 更新2026-05-10 收录
下载链接:
https://github.com/AlexZhangji/ufo-pursue-open-atlas
下载链接
链接失效反馈官方服务:
资源简介:
美国战争部PURSUE Release 01 UFO/UAP解密数据集,重新提取为带有内联图像描述的清洁Markdown格式。每张照片、草图、橡皮图章和手写边注都成为同一文本流中的`*Image: ...*`块。该数据集源自80年来的解密政府文件,包含每页的JPEG渲染和交互式3D地图。所有数据均为CC0许可。
The declassified UFO/UAP dataset from the U.S. Department of War's PURSUE Release 01, re-extracted into clean Markdown format with inline image descriptions. Every photograph, sketch, rubber stamp, and handwritten marginal note is converted into a `*Image: ...*` block within the same text stream. This dataset is sourced from 80 years of declassified government documents, and includes JPEG renderings of each page as well as interactive 3D maps. All data is licensed under CC0.
创建时间:
2026-05-09
原始信息汇总
好的,这是对您提供的数据集详情页面的总结概述。
数据集概述:PURSUE Open Atlas (UFO/UAP 公开档案)
核心信息
- 数据集名称: PURSUE Open Atlas — DoW UFO/UAP Release 01 (VLM Markdown + Inline Image Captions)
- 数据集地址: https://github.com/AlexZhangji/ufo-pursue-open-atlas
- 许可协议: CC0 1.0 (公共领域)
- 数据集规模: 161 份记录 · 4,153 页 · 约 2 GB 图像数据 · v0.1 版本
- 核心任务: 文本检索、文档问答、视觉问答、图像到文本、文本生成
数据来源与背景
该数据集基于美国战争部 (Department of War) 发布的“PURSUE Release 01”解密文件构建。这些文件属于美国政府作品,已在公共领域。内容涵盖 UFO/UAP 相关档案,包括军方记录、政府备忘录、电报、剪报等,时间跨度达 80 年。
数据内容与格式
该数据集的核心是将解密的 PDF 文档(其中 86.6% 为纯扫描图像,无嵌入式文本)通过视觉语言模型 (VLM) 重新提取为结构清晰的 Markdown 格式,并包含内联图像描述。
主要文件与构成:
| 文件名/目录 | 大小 | 说明 |
|---|---|---|
corpus.jsonl |
14 MB / 4,153 条 | 按页面组织的 Markdown 文件,每行一个 JSON 对象。包含全部文本和内联图像描述。 |
pages/*.parquet |
约 2.0 GB | 除 corpus.jsonl 中的字段外,还包含 image 列(200 DPI JPEG 图像)。此文件仅发布于 Hugging Face Hub。 |
mimo_processed/ |
25 MB | 每页 Markdown 源文件及元数据。 |
image_audit/ |
8 MB | 图像标签审核结果。 |
web/ |
< 1 MB | 交互式数据集查看器和 3D 地球地图集源码。 |
scripts/ + pipeline/ |
源码 | 完整的数据提取、审核、渲染、构建流水线。 |
数据模式 (Schema)
每条记录对应 PDF 中的一页,主要字段如下:
| 字段 | 类型 | 说明 |
|---|---|---|
pdf_stem / page_num |
string / int | 稳定的记录键和页码。 |
text |
string | 页面的完整 Markdown,包含内联 *Image: ...* 描述块。 |
agency |
string | 来源机构 (如 FBI, NASA, Department of War)。 |
year / year_inferred |
int / bool | 事件发生年份及是否是推断值。 |
incident_location |
string | null |
source_url |
string | 源文件的 war.gov 下载链接。 |
image |
PIL.Image | 仅在 pages 配置中存在,为解码后的页面 JPEG 图像。 |
主要特点与优势
- 结构化 Markdown 提取: 将扫描件中的标题、表格、列表、手写注释、橡皮图章、红印等元素都提取为结构化 Markdown,而非简单的 OCR 文本。例如,密级标识被转为
## UNCLASSIFIED或## SECRET标题。 - 内联图像描述: 每张照片、草图、图表、图章和手写旁注都作为
*Image: <factual description>*块嵌入文本流,实现了真正的图文交错。 - 解决零文本问题: 克服了 86.6% 的页面无原生文本的难题,为这些纯扫描图像页面生成了唯一的可搜索文本。
- 高可追溯性: 每条记录都标注了提取模型、版本、DPI 来源等元数据,并提供交互式查看器,用户可一键对比原始 PDF 页面和提取的 Markdown 文本。
注意事项
- 非逐字替换:
text字段是 VLM 对源 PDF 的重渲染,并非原文逐字拷贝。在引用时应与源文件核对。 - 无人类审查: 数据提取过程完全由大语言模型完成,不涉及人工审核。
- 图像标签审核不完全: 部分页面的图像描述来自其他模型,使用时需注意
image_tag_source字段。 - 潜在隐私问题: 源文件为已公开的美国联邦政府文件,但其中可能包含在世人员的姓名,引用时需注意。
搜集汇总
数据集介绍

构建方式
UAP Release 01数据集源自美国战争部解密的UFO/UAP档案,涵盖161份记录、4153页文档,时间跨度近80年。构建过程采用视觉语言模型(VLM)对原始PDF进行深度重新提取,将每一页中的照片、手绘草图、橡皮印章及手写批注等视觉元素转化为内嵌于Markdown文本流中的*Image: ...*描述块。研究团队首先通过pymupdf提取原生文本,发现86.6%的页面为零字符纯图像扫描,因此VLM提取成为唯一可检索文本来源。为进一步提升质量,对515页存在不一致的图像标签使用GPT-mini进行二次审核与重新描述,最终生成统一格式的Markdown语料库,并附带每页200 DPI的JPEG渲染图及交互式3D地图集。
特点
该数据集最显著的特点在于其多模态交织的文本-图像结构,通过内联图像描述将视觉内容无缝融入文字流,彻底打破传统OCR仅能处理印刷体文本的局限。数据集提供两种配置:纯文本加元数据的轻量版本(约14 MB)以及包含解码后PIL图像的完整多模态版本(约2 GB)。每一条记录都附有详尽的来源溯源信息,包括VLM模型版本、提示词版本、原始PDF的SHA256哈希值及机构来源等。数据集还提供交互式3D地球仪地图集和并排对照查看器,用户可直观浏览所有记录按机构、时间和地点分布的情况,并一键比对原始PDF页面与VLM提取的Markdown内容。
使用方法
用户可通过Hugging Face Datasets库便捷加载数据,使用load_dataset函数并指定配置名'text'或'pages'即可分别获取纯文本版或含图像的多模态版。对于需要本地部署的进阶使用者,可直接克隆GitHub仓库,利用web/目录下的纯HTML/JS文件启动静态服务器,无需任何构建工具或Node.js环境即可运行交互式3D地图集和并排查看器。数据集的流水线完全可复现,每个阶段都支持断点续传,从原始CSV下载、VLM提取、图像标签审核到最终语料库构建,均提供了详细的脚本命令,确保研究者能够重现整个构建过程并进行定制化扩展。
背景与挑战
背景概述
在不明飞行物(UAP)研究领域,大量历史档案因年代久远、格式陈旧,多以扫描件形式封存,缺乏可机器解析的文本层,严重阻碍了系统性学术分析。为弥合这一数据鸿沟,研究者Ji Zhang于2026年主导创建了UAP Release 01数据集,作为PURSUE Open Atlas项目首期成果。该数据集依托美国战争部解密的161份官方记录,涵盖联邦调查局、国务院、国家航空航天局及战争部等机构,时间跨度达八十年。其核心创新在于采用视觉语言模型(VLM)对4,153页档案进行深度结构化提取,将照片、手写批注、印章等非文本内容转化为带有内嵌图像描述的Markdown文档,并辅以交互式三维全球图谱。这一开创性数据集不仅为跨年代UAP事件追踪、模式识别及政府信息披露分析提供了高质量、可复现的基础语料,还建立了从历史解密文档到现代多模态机器学习管道的标准化桥梁,对推进UAP研究的科学化、数据驱动化具有里程碑意义。
当前挑战
该数据集面临的挑战源于多维度复杂性。首先,在领域问题层面,它突破了传统档案数字化的局限:86.6%的页面为纯图像扫描,无原生文本层,传统OCR技术对此类历史文档(含褪色字迹、不规则印章、手写边注及大量涂黑编辑)几乎失效,而VLM的引入虽实现了高精度语义重建,但其输出并非逐字转录,仍存在幻觉与细节偏差风险,需人工交叉验证。其次,数据集构建过程中遭遇了显著的工程挑战:如何对1,236个图像标签页进行一致性审计,其中515页因原始VLM模型对印章或纯文本页面的误判而需通过更轻量的GPT-mini模型二次描述,以保证图像内容描述的完整性;同时,对元数据(如地理位置、日期)的校正(共61处修正)需从零散文件名与上下文反向推断,工作量繁重。此外,源文件中涉及在世人员的个人信息,在遵守公共域许可证的同时,需审慎处理隐私边界,为下游应用的合规使用增添了考量维度。
常用场景
经典使用场景
在非结构化历史档案的知识抽取与多模态文档理解领域,UAP Release 01数据集被广泛用作评估视觉-语言模型对图文交错复杂文档进行结构化转录能力的基准。该数据集涵盖了来自美国战争部等机构的4,153页已解密UFO/UAP档案,包含大量手写注释、公章、照片和涂黑机密区域,其中86.6%的页面为纯图像扫描,无任何内嵌文本。研究者常利用其统一的Markdown与内嵌图像描述格式,检验VLM模型在图文穿插场景下的语义忠实度、排版还原能力与跨模态对齐精度,从而推动文档级视觉问答与图像到文本生成任务的发展。
解决学术问题
该数据集有效解决了长期困扰历史档案数字化研究的核心痛点:传统OCR与PDF文本提取技术对图像型扫描文档几乎完全失效,且无法系统性地保留公章、手写批注、图表等非纯文本视觉元素的语义信息。通过提供86.6%无原生文本页面的结构化替代文本层,UAP Release 01使得大规模军事与政府已解密档案的细粒度信息检索、跨文档时序分析与实体关联挖掘成为可能。其公开的CC0许可与完整可复现流程,打破了以往此类敏感档案研究的数据壁垒,为计算档案学、信息史与解密文档分析提供了可验证、可比较的公开基准语料,显著降低了学术复现的门槛。
衍生相关工作
该数据集衍生了一系列聚焦于低资源OCR替代方案与多模态文档转录质量评估的开源工作。例如,社区基于其mimo-v2.5与GPT-5.4-mini双通道图像描述机制,开发了自动审计脚本以量化VLM输出与原始页面的一致性分数。此外,部分研究者利用其515页经二次描述的图像标签子集,构建了针对历史文档中印章、手写边缘注与涂黑文本的特殊语义分类器。由该数据集驱动的文档级视觉问答评测任务也已出现,专门测试模型在政府表单、电文与剪报等混合排版场景下的表格理解与多模态引用精度。这些工作共同推动了从单页OCR向多模态档案整体转录范式的演进,并巩固了该数据集作为非对称信息提取领域的标准测试床的地位。
以上内容由遇见数据集搜集并总结生成



